← Vissza a listához
Állás
Engineering csapattag (Reinforcement Learning)
Poolside
AI / ML Engineer
• Remote
• Teljes munkaidő
• 📍 Remote (EMEA
A Poolside, amely élvonalbeli, szoftverfejlesztésre fókuszáló LLM-eket épít az AGI felé vezető úton, a reinforcement learning csapatába keres munkatársat, amely RL segítségével javítja a nagy nyelvi modellek reasoning és kódolási képességeit. Ez a gyakorlatias, end-to-end szerep felöleli az új exploration- és tanítóalgoritmusok kutatását, RL-környezetek tervezését és skálázását, valamint az ötletek megvalósítását a teljes stacken, több ezer GPU-hoz való hozzáféréssel. A csapat teljesen távmunkás, Európában és Észak-Amerikában elosztva, havonta három napra Párizsban találkoznak.
Feladatok
- ▹Az LLM-ek reasoning- és kódgenerálási képességeinek javítását célzó kutatás és kísérletezés, a teljes kísérleti életciklus birtoklása az ötlettől a kísérletezésen át az integrációig
- ▹A legújabb kutatások és az LLM-ek, RL és kódgenerálás élvonalának követése, a kutatási ötletek tiszta, újrahasznosítható kódbázisokká alakítása, amelyekre mások építhetnek
- ▹Az LLM-ek adatgenerálásának és tanításának tervezése, elemzése és iterálása
- ▹RL tanító pipeline-ok megvalósítása és iterálása, amelyek megbízhatóan skálázódnak több területen
- ▹Tanítási instabilitások és hibák diagnosztizálása, RL futások debugolása és mitigációs módszerek javaslata
- ▹Magas színvonalú, reprodukálható és karbantartható kód írása
Elvárások
- ▹Tapasztalat nagy nyelvi modellekkel (LLM): a Transformer architektúra és scaling law-ok értése, mid-training és post-training technikák, reasoning és/vagy agentic modellek tanítása, LLM-ek gyakorlati használata a képességeik és korlátaik ismeretében
- ▹Reinforcement Learning tapasztalat: az RL-koncepciók biztos ismerete és a modern algoritmusok ismerete, tapasztalat elosztott, nagy léptékű RL pipeline-ok fejlesztésében az adatkészítéstől az evalokig
- ▹Erős gépi tanulási, algoritmikai és mérnöki háttér
- ▹Tapasztalat elosztott tanítással
- ▹Kiváló Python programozási készség
- ▹Jártasság valamely deep learning keretrendszerben (PyTorch vagy JAX)
- ▹Képesség a legújabb kutatások kellő részletességű megvitatására és megalapozott vélemény alkotására
Előny
- ▹Tudományos publikációk Reinforcement Learning, LLM-ek vagy reasoning modellek témában
Soft skillek
Intellektuális kíváncsiságErős munkamorálEgyüttműködő, alacsony egójú hozzáállásMegalapozottan véleményformáló
Amit kínálunk
- ▹Teljesen távmunka és rugalmas munkaidő
- ▹Évi 37 nap szabadság és ünnep
- ▹Egészségbiztosítási hozzájárulás neked és eltartottaidnak
- ▹16 hét rugalmas, teljes fizetéssel járó szülői szabadság
- ▹Well-being, folyamatos tanulási és home office juttatások
- ▹Cég által biztosított eszközök
- ▹Gyakori csapatösszejövetelek (havi 3 napos párizsi találkozó, éves off-site)
- ▹Sokszínű és befogadó, ember-központú kultúra