← Vissza a listához
Állás

Senior kutatómérnök - Voice (Hang)

AI / ML Engineer • Remote • Teljes munkaidő • 📍 Europe

A Synthesia a világ vezető üzleti AI-videóplatformja, amelyet a Fortune 100 vállalatok több mint 90%-a használ. 2017-ben alapították, központja Londonban van, irodákkal Európa-szerte és az USA-ban. A 200 millió dolláros Series E kör után az értékelése 4 milliárd dollár. Kutatómérnökként az Audio Post-Training csapatban (egy 40+ fős K+F részleg része) a generatív beszéd- és hangszintézisen dolgozol - magas minőségű, kifejező és valós idejű szintetikus hangokat hozol létre, és gondoskodsz arról, hogy a házon belüli hangmodellek éles szintű minőséget, sebességet és robusztusságot érjenek el. Munkád közvetlenül több mint 60 000 vállalkozás által használt megoldásokat érint. A pozíció távmunkás Európában.

Stack

Feladatok

  • Streaming és speech-to-speech rendszerek fejlesztése és kiértékelése alacsony latenciájú, interaktív hangszintézishez
  • Modellek adaptálása új conditioning-bemenetekre (emóció, sebesség, prozódia, beszélővezérlés stb.)
  • Post-training optimalizációs technikák (kvantálás, pruning, desztilláció) megvalósítása a hatékonyság és latencia javítására valós idejű beszédgenerálásban
  • Új architektúrák integrálása és tesztelése, mint a neurális kodekek, diffúziós vagy flow-matching modellek, a realizmus és reszponzivitás növelésére
  • Hozzájárulás új kiértékelési metrikák definiálásához társalgási beszédhez, beleértve a latencia-tudatos és online MOS-predikciós rendszereket
  • Naprakészség a legújabb kutatásokban: audio diffusion, autoregresszív modellek, neurális kodekek és multimodális LLM-ek
  • DPO (Direct Preference Optimization) és desztilláció alkalmazása nagy léptékű beszédmodellek finomhangolására

Elvárások

  • A generatív modellezés erős értése, ideálisan szekvenciális vagy multimodális adatra alkalmazva
  • Gyakorlati tapasztalat nagy nyelvi modellekkel (LLM) vagy hasonló transformer-alapú architektúrákkal
  • Magas szintű PyTorch-jártasság, beleértve az elosztott tréninget és a modelloptimalizálást
  • Az idősoros modellezés és a tokenizáció szilárd értése, lehetőleg hang vagy beszéd kontextusában
  • Bizonyított képesség gyors prototípuskészítésre, hipotézisek tesztelésére és hatékony iterációra
  • Bizonyított tapasztalat deep learning modellek end-to-end tréningezésében, az adatelőkészítéstől a kiértékelésig
  • Erős általános szoftvermérnöki készségek egy nagy, megosztott kutatási infrastruktúrához való hozzájáruláshoz

Előny

  • Tapasztalat valós idejű vagy streaming architektúrákkal
  • Jártasság a hang- és beszédgenerálás élvonalbeli architektúráiban (diffúziós modellek, neurális kodekek, flow-matching modellek, autoregresszív dekóderek)
  • Tapasztalat speech-to-speech vagy text-to-speech (TTS) rendszerekkel
  • Eredeti kutatási hozzájárulások, például publikációk vagy nyílt forráskódú munka rangos helyeken (ICASSP, Interspeech, NeurIPS, ICML)

Soft skillek

Gyors prototípuskészítés és hatékony iterációEgyüttműködő egy nagy, megosztott kutatási infrastruktúrán belül