Állás

Engineering csapattag (Pre-training / adatkutatás)

Poolside

AI / ML Engineer • Remote • Teljes munkaidő • 📍 Remote (EMEA

A Poolside, amely élvonalbeli, szoftverfejlesztésre fókuszáló LLM-eket és agentic rendszereket épít az AGI felé vezető úton, mérnököt keres az adatcsapatába. A gyakorlatias szerep középpontjában a pretraining adathalmazok minőségének javítása áll szintetikus adatgenerálással és az adatmix optimalizálásával, időkorlátos kutatási kísérletek vezetésével, miközben éles, magas színvonalú mérnöki megoldásokat telepít elosztott adat-pipeline-on és nagy GPU-klaszteren. A csapat teljesen távmunkás, Európában és Észak-Amerikában elosztva, havonta három napra Párizsban találkoznak.

Stack

Python

Feladatok

▹A Poolside modelljeit és coding agentjeit tanító pretraining adathalmazok minőségének javítása, beleértve a szintetikus adatgenerálást és az adatmix optimalizálását
▹Összetett pipeline-ok tervezése és megvalósítása, amelyek nagy mennyiségű adatot generálnak magas diverzitás mellett, optimalizálva a rendelkezésre álló erőforrásokat
▹Eredeti kutatási kezdeményezések vezetése rövid, időkorlátos kísérleteken keresztül, és magas színvonalú mérnöki megoldások éles bevezetése
▹Adat-ablációk és tanítási kísérletek javaslata, lefolytatása és elemzése, amelyek kvantitatív meglátások révén javítják az adathalmazok minőségét
▹Szoros együttműködés a Pretraining, Posttraining, Evals és Product csapatokkal a modellminőségre vonatkozó rövid visszacsatolási ciklusok érdekében
▹Az LLM-ekkel és adatminőséggel kapcsolatos legújabb kutatások követése, valamint a legrelevánsabb nyílt forráskódú adathalmazok és modellek ismerete

Elvárások

▹Erős gépi tanulási és mérnöki háttér
▹Tapasztalat nagy nyelvi modellekkel (LLM): a transformer architektúrák és az LLM-ek tanulásának értése, adat-ablációk és scaling law-ok, mid-training és post-training technikák, reasoning és agentic modellek tanítása
▹Tapasztalat a modellképességeket nyomon követő evalokkal (általános tudás, reasoning, matematika, kódolás, long-context stb.)
▹Tapasztalat trillió léptékű pretraining adathalmazok építésében, valamint a data curation, deduplikáció, adatmixelés, tokenizáció, curriculum és az adatismétlés hatásának ismerete
▹Kiváló Python programozási készség
▹Erős prompt engineering készség
▹Tapasztalat nagy léptékű GPU-klaszterekkel és elosztott adat-pipeline-okkal
▹Erős elköteleződés az adatminőség iránt
▹Képesség a legújabb cikkek finom részletekig történő megvitatására és megalapozott vélemény alkotására

Előny

▹Tudományos publikációk szerzősége az alkalmazott deep learning, LLM-ek, forráskód-generálás vagy kapcsolódó témákban

Soft skillek

Intellektuális kíváncsiságErős munkamorál és minőség iránti elköteleződésEgyüttműködő, alacsony egójú hozzáállásMegalapozottan véleményformáló

Amit kínálunk

▹Teljesen távmunka és rugalmas munkaidő
▹Évi 37 nap szabadság és ünnep
▹Egészségbiztosítási hozzájárulás neked és eltartottaidnak
▹Cég által biztosított eszközök
▹Well-being, folyamatos tanulási és home office juttatások
▹Gyakori csapatösszejövetelek (havi 3 napos párizsi találkozó, éves off-site)
▹Sokszínű és befogadó, ember-központú kultúra