Állás

Senior kutatómérnök - Voice (Hang)

AI / ML Engineer • Remote • Teljes munkaidő • 📍 Europe

A Synthesia a világ vezető üzleti AI-videóplatformja, amelyet a Fortune 100 vállalatok több mint 90%-a használ. 2017-ben alapították, központja Londonban van, irodákkal Európa-szerte és az USA-ban. A 200 millió dolláros Series E kör után az értékelése 4 milliárd dollár. Kutatómérnökként az Audio Post-Training csapatban (egy 40+ fős K+F részleg része) a generatív beszéd- és hangszintézisen dolgozol - magas minőségű, kifejező és valós idejű szintetikus hangokat hozol létre, és gondoskodsz arról, hogy a házon belüli hangmodellek éles szintű minőséget, sebességet és robusztusságot érjenek el. Munkád közvetlenül több mint 60 000 vállalkozás által használt megoldásokat érint. A pozíció távmunkás Európában.

Stack

PyTorch

Feladatok

▹Streaming és speech-to-speech rendszerek fejlesztése és kiértékelése alacsony latenciájú, interaktív hangszintézishez
▹Modellek adaptálása új conditioning-bemenetekre (emóció, sebesség, prozódia, beszélővezérlés stb.)
▹Post-training optimalizációs technikák (kvantálás, pruning, desztilláció) megvalósítása a hatékonyság és latencia javítására valós idejű beszédgenerálásban
▹Új architektúrák integrálása és tesztelése, mint a neurális kodekek, diffúziós vagy flow-matching modellek, a realizmus és reszponzivitás növelésére
▹Hozzájárulás új kiértékelési metrikák definiálásához társalgási beszédhez, beleértve a latencia-tudatos és online MOS-predikciós rendszereket
▹Naprakészség a legújabb kutatásokban: audio diffusion, autoregresszív modellek, neurális kodekek és multimodális LLM-ek
▹DPO (Direct Preference Optimization) és desztilláció alkalmazása nagy léptékű beszédmodellek finomhangolására

Elvárások

▹A generatív modellezés erős értése, ideálisan szekvenciális vagy multimodális adatra alkalmazva
▹Gyakorlati tapasztalat nagy nyelvi modellekkel (LLM) vagy hasonló transformer-alapú architektúrákkal
▹Magas szintű PyTorch-jártasság, beleértve az elosztott tréninget és a modelloptimalizálást
▹Az idősoros modellezés és a tokenizáció szilárd értése, lehetőleg hang vagy beszéd kontextusában
▹Bizonyított képesség gyors prototípuskészítésre, hipotézisek tesztelésére és hatékony iterációra
▹Bizonyított tapasztalat deep learning modellek end-to-end tréningezésében, az adatelőkészítéstől a kiértékelésig
▹Erős általános szoftvermérnöki készségek egy nagy, megosztott kutatási infrastruktúrához való hozzájáruláshoz

Előny

▹Tapasztalat valós idejű vagy streaming architektúrákkal
▹Jártasság a hang- és beszédgenerálás élvonalbeli architektúráiban (diffúziós modellek, neurális kodekek, flow-matching modellek, autoregresszív dekóderek)
▹Tapasztalat speech-to-speech vagy text-to-speech (TTS) rendszerekkel
▹Eredeti kutatási hozzájárulások, például publikációk vagy nyílt forráskódú munka rangos helyeken (ICASSP, Interspeech, NeurIPS, ICML)

Soft skillek

Gyors prototípuskészítés és hatékony iterációEgyüttműködő egy nagy, megosztott kutatási infrastruktúrán belül