← Vissza a listához
Állás
Senior kutatómérnök - Voice (Hang)
AI / ML Engineer
• Remote
• Teljes munkaidő
• 📍 Europe
A Synthesia a világ vezető üzleti AI-videóplatformja, amelyet a Fortune 100 vállalatok több mint 90%-a használ. 2017-ben alapították, központja Londonban van, irodákkal Európa-szerte és az USA-ban. A 200 millió dolláros Series E kör után az értékelése 4 milliárd dollár. Kutatómérnökként az Audio Post-Training csapatban (egy 40+ fős K+F részleg része) a generatív beszéd- és hangszintézisen dolgozol - magas minőségű, kifejező és valós idejű szintetikus hangokat hozol létre, és gondoskodsz arról, hogy a házon belüli hangmodellek éles szintű minőséget, sebességet és robusztusságot érjenek el. Munkád közvetlenül több mint 60 000 vállalkozás által használt megoldásokat érint. A pozíció távmunkás Európában.
Stack
Feladatok
- ▹Streaming és speech-to-speech rendszerek fejlesztése és kiértékelése alacsony latenciájú, interaktív hangszintézishez
- ▹Modellek adaptálása új conditioning-bemenetekre (emóció, sebesség, prozódia, beszélővezérlés stb.)
- ▹Post-training optimalizációs technikák (kvantálás, pruning, desztilláció) megvalósítása a hatékonyság és latencia javítására valós idejű beszédgenerálásban
- ▹Új architektúrák integrálása és tesztelése, mint a neurális kodekek, diffúziós vagy flow-matching modellek, a realizmus és reszponzivitás növelésére
- ▹Hozzájárulás új kiértékelési metrikák definiálásához társalgási beszédhez, beleértve a latencia-tudatos és online MOS-predikciós rendszereket
- ▹Naprakészség a legújabb kutatásokban: audio diffusion, autoregresszív modellek, neurális kodekek és multimodális LLM-ek
- ▹DPO (Direct Preference Optimization) és desztilláció alkalmazása nagy léptékű beszédmodellek finomhangolására
Elvárások
- ▹A generatív modellezés erős értése, ideálisan szekvenciális vagy multimodális adatra alkalmazva
- ▹Gyakorlati tapasztalat nagy nyelvi modellekkel (LLM) vagy hasonló transformer-alapú architektúrákkal
- ▹Magas szintű PyTorch-jártasság, beleértve az elosztott tréninget és a modelloptimalizálást
- ▹Az idősoros modellezés és a tokenizáció szilárd értése, lehetőleg hang vagy beszéd kontextusában
- ▹Bizonyított képesség gyors prototípuskészítésre, hipotézisek tesztelésére és hatékony iterációra
- ▹Bizonyított tapasztalat deep learning modellek end-to-end tréningezésében, az adatelőkészítéstől a kiértékelésig
- ▹Erős általános szoftvermérnöki készségek egy nagy, megosztott kutatási infrastruktúrához való hozzájáruláshoz
Előny
- ▹Tapasztalat valós idejű vagy streaming architektúrákkal
- ▹Jártasság a hang- és beszédgenerálás élvonalbeli architektúráiban (diffúziós modellek, neurális kodekek, flow-matching modellek, autoregresszív dekóderek)
- ▹Tapasztalat speech-to-speech vagy text-to-speech (TTS) rendszerekkel
- ▹Eredeti kutatási hozzájárulások, például publikációk vagy nyílt forráskódú munka rangos helyeken (ICASSP, Interspeech, NeurIPS, ICML)
Soft skillek
Gyors prototípuskészítés és hatékony iterációEgyüttműködő egy nagy, megosztott kutatási infrastruktúrán belül