← Vissza a listához
Állás

Engineering csapattag (Pre-training / adatkutatás)

Poolside
AI / ML Engineer • Remote • Teljes munkaidő • 📍 Remote (EMEA

A Poolside, amely élvonalbeli, szoftverfejlesztésre fókuszáló LLM-eket és agentic rendszereket épít az AGI felé vezető úton, mérnököt keres az adatcsapatába. A gyakorlatias szerep középpontjában a pretraining adathalmazok minőségének javítása áll szintetikus adatgenerálással és az adatmix optimalizálásával, időkorlátos kutatási kísérletek vezetésével, miközben éles, magas színvonalú mérnöki megoldásokat telepít elosztott adat-pipeline-on és nagy GPU-klaszteren. A csapat teljesen távmunkás, Európában és Észak-Amerikában elosztva, havonta három napra Párizsban találkoznak.

Stack

Feladatok

  • A Poolside modelljeit és coding agentjeit tanító pretraining adathalmazok minőségének javítása, beleértve a szintetikus adatgenerálást és az adatmix optimalizálását
  • Összetett pipeline-ok tervezése és megvalósítása, amelyek nagy mennyiségű adatot generálnak magas diverzitás mellett, optimalizálva a rendelkezésre álló erőforrásokat
  • Eredeti kutatási kezdeményezések vezetése rövid, időkorlátos kísérleteken keresztül, és magas színvonalú mérnöki megoldások éles bevezetése
  • Adat-ablációk és tanítási kísérletek javaslata, lefolytatása és elemzése, amelyek kvantitatív meglátások révén javítják az adathalmazok minőségét
  • Szoros együttműködés a Pretraining, Posttraining, Evals és Product csapatokkal a modellminőségre vonatkozó rövid visszacsatolási ciklusok érdekében
  • Az LLM-ekkel és adatminőséggel kapcsolatos legújabb kutatások követése, valamint a legrelevánsabb nyílt forráskódú adathalmazok és modellek ismerete

Elvárások

  • Erős gépi tanulási és mérnöki háttér
  • Tapasztalat nagy nyelvi modellekkel (LLM): a transformer architektúrák és az LLM-ek tanulásának értése, adat-ablációk és scaling law-ok, mid-training és post-training technikák, reasoning és agentic modellek tanítása
  • Tapasztalat a modellképességeket nyomon követő evalokkal (általános tudás, reasoning, matematika, kódolás, long-context stb.)
  • Tapasztalat trillió léptékű pretraining adathalmazok építésében, valamint a data curation, deduplikáció, adatmixelés, tokenizáció, curriculum és az adatismétlés hatásának ismerete
  • Kiváló Python programozási készség
  • Erős prompt engineering készség
  • Tapasztalat nagy léptékű GPU-klaszterekkel és elosztott adat-pipeline-okkal
  • Erős elköteleződés az adatminőség iránt
  • Képesség a legújabb cikkek finom részletekig történő megvitatására és megalapozott vélemény alkotására

Előny

  • Tudományos publikációk szerzősége az alkalmazott deep learning, LLM-ek, forráskód-generálás vagy kapcsolódó témákban

Soft skillek

Intellektuális kíváncsiságErős munkamorál és minőség iránti elköteleződésEgyüttműködő, alacsony egójú hozzáállásMegalapozottan véleményformáló

Amit kínálunk

  • Teljesen távmunka és rugalmas munkaidő
  • Évi 37 nap szabadság és ünnep
  • Egészségbiztosítási hozzájárulás neked és eltartottaidnak
  • Cég által biztosított eszközök
  • Well-being, folyamatos tanulási és home office juttatások
  • Gyakori csapatösszejövetelek (havi 3 napos párizsi találkozó, éves off-site)
  • Sokszínű és befogadó, ember-központú kultúra