← Vissza a listához
Állás

Research Staff, Voice AI Foundations

Deepgram
AI / ML Engineer • Remote • Teljes munkaidő • 📍 EMEA

A Deepgram, a vezető Voice AI platform, amely valós idejű beszéd-szöveg (STT), szöveg-beszéd (TTS) és éles hangos ügynök API-kat kínál, Member of the Research Staff munkatársat keres a Latent Space Modellek (LSM) fejlesztésének úttörő munkájához. Ez egy új megközelítés, amely a robusztus, kontextualizált voice AI építésének alapvető adat-, skálázási és költségkihívásait hivatott megoldani. A Deepgram AI-first szemlélettel és gyors tempóban működik, ezért fontos a kísérletezésre, alkalmazkodásra és folyamatos tanulásra való nyitottság.

Feladatok

  • Új generációs neurális audiokodekek építése, amelyek extrém, alacsony bitrátájú tömörítést és nagy hűségű rekonstrukciót érnek el világméretű, általános audiokorpuszon
  • Vezérelhető (steerable) generatív modellek úttörése, amelyek a kodek latens reprezentációjából képesek szintetizálni az emberi beszéd teljes változatosságát – a hétköznapi társalgástól az erősen érzelmi kifejezésen át a komplex, többszereplős helyzetekig
  • Olyan embedding-rendszerek fejlesztése, amelyek a kodek latens terét értelmezhető dimenziókra (beszélő, tartalom, stílus, környezet, csatornahatások) bontják, lehetővé téve a precíz vezérlést és a latens rekombinációt
  • A latens rekombináció kihasználása szintetikus audioadatok hatalmas léptékű generálására, megnyitva az audió együttes modell- és adatskálázási paradigmáit
  • Multimodális beszéd-beszéd rendszerek tanítása, amelyek bárkit megértenek, és empatikus, emberszerű válaszokat adnak társalgási vagy feladatorientált célokra
  • Hardverre a legalacsonyabb szintig optimalizált modellarchitektúrák, tanítási sémák és inferencia-algoritmusok tervezése, lehetővé téve a költséghatékony tanítást milliárd órás adathalmazokon és a valós idejű inferenciát nagy párhuzamosság mellett

Elvárások

  • Erős matematikai alapok a statisztikai tanuláselméletben, különösen az önfelügyelt (self-supervised) és multimodális tanuláshoz kapcsolódó területeken
  • Mély szakértelem foundation modell architektúrákban, a tanítás több modalitáson átívelő skálázásának értésével
  • Igazolt képesség az elmélet és gyakorlat áthidalására: új matematikai formulák levezetése és hatékony implementálása
  • Bizonyított képesség olyan adat-pipeline-ok építésére, amelyek hatalmas adathalmazokat dolgoznak fel és kurálnak a minőség és változatosság megőrzése mellett
  • Tapasztalat kontrollált kísérletek tervezésében, amelyek izolálják az architekturális újítások hatását és validálják az elméleti meglátásokat
  • Tapasztalat modellek valós felhasználásra való optimalizálásában, beleértve a hardveres korlátok és a hatékonysági technikák ismeretét
  • Open-source hozzájárulások vagy kutatási publikációk, amelyek előrevitték a beszéd/nyelvi AI állását
  • AI-first szemlélet: a fejlett AI-eszközök aktív használata és kísérletezés velük a napi munkában

Soft skillek

Kíváncsiság és a nehéz, megoldatlan problémák iránti elkötelezettségKépesség gyorsan azonosítani azt a kritikus kísérletet, amely igazol vagy elvet egy ötletetVízió a sikeres proof-of-conceptek nagyságrendi skálázásáraAlkalmazkodóképesség és folyamatos tanulás gyors tempójú környezetben

Amit kínálunk

  • Egészségügyi, fogászati és látásügyi juttatások
  • Éves wellness juttatás és mentális egészségügyi támogatás
  • Élet-, rövid és hosszú távú keresőképtelenségi (STD/LTD) biztosítás
  • Korlátlan szabadság (PTO), szülői szabadság és rugalmas munkarend
  • 12 fizetett amerikai munkaszüneti nap
  • Negyedéves személyes produktivitási juttatás és egyszeri otthoni iroda fejlesztési támogatás
  • 401(k) nyugdíjprogram céges hozzájárulással