← Vissza a listához
Állás
Engineering csapattag (Pre-training / adatkutatás)
Poolside
AI / ML Engineer
• Remote
• Teljes munkaidő
• 📍 Remote (EMEA
A Poolside, amely élvonalbeli, szoftverfejlesztésre fókuszáló LLM-eket és agentic rendszereket épít az AGI felé vezető úton, mérnököt keres az adatcsapatába. A gyakorlatias szerep középpontjában a pretraining adathalmazok minőségének javítása áll szintetikus adatgenerálással és az adatmix optimalizálásával, időkorlátos kutatási kísérletek vezetésével, miközben éles, magas színvonalú mérnöki megoldásokat telepít elosztott adat-pipeline-on és nagy GPU-klaszteren. A csapat teljesen távmunkás, Európában és Észak-Amerikában elosztva, havonta három napra Párizsban találkoznak.
Stack
Feladatok
- ▹A Poolside modelljeit és coding agentjeit tanító pretraining adathalmazok minőségének javítása, beleértve a szintetikus adatgenerálást és az adatmix optimalizálását
- ▹Összetett pipeline-ok tervezése és megvalósítása, amelyek nagy mennyiségű adatot generálnak magas diverzitás mellett, optimalizálva a rendelkezésre álló erőforrásokat
- ▹Eredeti kutatási kezdeményezések vezetése rövid, időkorlátos kísérleteken keresztül, és magas színvonalú mérnöki megoldások éles bevezetése
- ▹Adat-ablációk és tanítási kísérletek javaslata, lefolytatása és elemzése, amelyek kvantitatív meglátások révén javítják az adathalmazok minőségét
- ▹Szoros együttműködés a Pretraining, Posttraining, Evals és Product csapatokkal a modellminőségre vonatkozó rövid visszacsatolási ciklusok érdekében
- ▹Az LLM-ekkel és adatminőséggel kapcsolatos legújabb kutatások követése, valamint a legrelevánsabb nyílt forráskódú adathalmazok és modellek ismerete
Elvárások
- ▹Erős gépi tanulási és mérnöki háttér
- ▹Tapasztalat nagy nyelvi modellekkel (LLM): a transformer architektúrák és az LLM-ek tanulásának értése, adat-ablációk és scaling law-ok, mid-training és post-training technikák, reasoning és agentic modellek tanítása
- ▹Tapasztalat a modellképességeket nyomon követő evalokkal (általános tudás, reasoning, matematika, kódolás, long-context stb.)
- ▹Tapasztalat trillió léptékű pretraining adathalmazok építésében, valamint a data curation, deduplikáció, adatmixelés, tokenizáció, curriculum és az adatismétlés hatásának ismerete
- ▹Kiváló Python programozási készség
- ▹Erős prompt engineering készség
- ▹Tapasztalat nagy léptékű GPU-klaszterekkel és elosztott adat-pipeline-okkal
- ▹Erős elköteleződés az adatminőség iránt
- ▹Képesség a legújabb cikkek finom részletekig történő megvitatására és megalapozott vélemény alkotására
Előny
- ▹Tudományos publikációk szerzősége az alkalmazott deep learning, LLM-ek, forráskód-generálás vagy kapcsolódó témákban
Soft skillek
Intellektuális kíváncsiságErős munkamorál és minőség iránti elköteleződésEgyüttműködő, alacsony egójú hozzáállásMegalapozottan véleményformáló
Amit kínálunk
- ▹Teljesen távmunka és rugalmas munkaidő
- ▹Évi 37 nap szabadság és ünnep
- ▹Egészségbiztosítási hozzájárulás neked és eltartottaidnak
- ▹Cég által biztosított eszközök
- ▹Well-being, folyamatos tanulási és home office juttatások
- ▹Gyakori csapatösszejövetelek (havi 3 napos párizsi találkozó, éves off-site)
- ▹Sokszínű és befogadó, ember-központú kultúra