Állás

Research Staff, Voice AI Foundations

Deepgram

AI / ML Engineer • Remote • Teljes munkaidő • 📍 EMEA

A Deepgram, a vezető Voice AI platform, amely valós idejű beszéd-szöveg (STT), szöveg-beszéd (TTS) és éles hangos ügynök API-kat kínál, Member of the Research Staff munkatársat keres a Latent Space Modellek (LSM) fejlesztésének úttörő munkájához. Ez egy új megközelítés, amely a robusztus, kontextualizált voice AI építésének alapvető adat-, skálázási és költségkihívásait hivatott megoldani. A Deepgram AI-first szemlélettel és gyors tempóban működik, ezért fontos a kísérletezésre, alkalmazkodásra és folyamatos tanulásra való nyitottság.

Feladatok

▹Új generációs neurális audiokodekek építése, amelyek extrém, alacsony bitrátájú tömörítést és nagy hűségű rekonstrukciót érnek el világméretű, általános audiokorpuszon
▹Vezérelhető (steerable) generatív modellek úttörése, amelyek a kodek latens reprezentációjából képesek szintetizálni az emberi beszéd teljes változatosságát – a hétköznapi társalgástól az erősen érzelmi kifejezésen át a komplex, többszereplős helyzetekig
▹Olyan embedding-rendszerek fejlesztése, amelyek a kodek latens terét értelmezhető dimenziókra (beszélő, tartalom, stílus, környezet, csatornahatások) bontják, lehetővé téve a precíz vezérlést és a latens rekombinációt
▹A latens rekombináció kihasználása szintetikus audioadatok hatalmas léptékű generálására, megnyitva az audió együttes modell- és adatskálázási paradigmáit
▹Multimodális beszéd-beszéd rendszerek tanítása, amelyek bárkit megértenek, és empatikus, emberszerű válaszokat adnak társalgási vagy feladatorientált célokra
▹Hardverre a legalacsonyabb szintig optimalizált modellarchitektúrák, tanítási sémák és inferencia-algoritmusok tervezése, lehetővé téve a költséghatékony tanítást milliárd órás adathalmazokon és a valós idejű inferenciát nagy párhuzamosság mellett

Elvárások

▹Erős matematikai alapok a statisztikai tanuláselméletben, különösen az önfelügyelt (self-supervised) és multimodális tanuláshoz kapcsolódó területeken
▹Mély szakértelem foundation modell architektúrákban, a tanítás több modalitáson átívelő skálázásának értésével
▹Igazolt képesség az elmélet és gyakorlat áthidalására: új matematikai formulák levezetése és hatékony implementálása
▹Bizonyított képesség olyan adat-pipeline-ok építésére, amelyek hatalmas adathalmazokat dolgoznak fel és kurálnak a minőség és változatosság megőrzése mellett
▹Tapasztalat kontrollált kísérletek tervezésében, amelyek izolálják az architekturális újítások hatását és validálják az elméleti meglátásokat
▹Tapasztalat modellek valós felhasználásra való optimalizálásában, beleértve a hardveres korlátok és a hatékonysági technikák ismeretét
▹Open-source hozzájárulások vagy kutatási publikációk, amelyek előrevitték a beszéd/nyelvi AI állását
▹AI-first szemlélet: a fejlett AI-eszközök aktív használata és kísérletezés velük a napi munkában

Soft skillek

Kíváncsiság és a nehéz, megoldatlan problémák iránti elkötelezettségKépesség gyorsan azonosítani azt a kritikus kísérletet, amely igazol vagy elvet egy ötletetVízió a sikeres proof-of-conceptek nagyságrendi skálázásáraAlkalmazkodóképesség és folyamatos tanulás gyors tempójú környezetben

Amit kínálunk

▹Egészségügyi, fogászati és látásügyi juttatások
▹Éves wellness juttatás és mentális egészségügyi támogatás
▹Élet-, rövid és hosszú távú keresőképtelenségi (STD/LTD) biztosítás
▹Korlátlan szabadság (PTO), szülői szabadság és rugalmas munkarend
▹12 fizetett amerikai munkaszüneti nap
▹Negyedéves személyes produktivitási juttatás és egyszeri otthoni iroda fejlesztési támogatás
▹401(k) nyugdíjprogram céges hozzájárulással