Állás

Engineering csapattag (Reinforcement Learning)

Poolside

AI / ML Engineer • Remote • Teljes munkaidő • 📍 Remote (EMEA

A Poolside, amely élvonalbeli, szoftverfejlesztésre fókuszáló LLM-eket épít az AGI felé vezető úton, a reinforcement learning csapatába keres munkatársat, amely RL segítségével javítja a nagy nyelvi modellek reasoning és kódolási képességeit. Ez a gyakorlatias, end-to-end szerep felöleli az új exploration- és tanítóalgoritmusok kutatását, RL-környezetek tervezését és skálázását, valamint az ötletek megvalósítását a teljes stacken, több ezer GPU-hoz való hozzáféréssel. A csapat teljesen távmunkás, Európában és Észak-Amerikában elosztva, havonta három napra Párizsban találkoznak.

Stack

Python PyTorch

Feladatok

▹Az LLM-ek reasoning- és kódgenerálási képességeinek javítását célzó kutatás és kísérletezés, a teljes kísérleti életciklus birtoklása az ötlettől a kísérletezésen át az integrációig
▹A legújabb kutatások és az LLM-ek, RL és kódgenerálás élvonalának követése, a kutatási ötletek tiszta, újrahasznosítható kódbázisokká alakítása, amelyekre mások építhetnek
▹Az LLM-ek adatgenerálásának és tanításának tervezése, elemzése és iterálása
▹RL tanító pipeline-ok megvalósítása és iterálása, amelyek megbízhatóan skálázódnak több területen
▹Tanítási instabilitások és hibák diagnosztizálása, RL futások debugolása és mitigációs módszerek javaslata
▹Magas színvonalú, reprodukálható és karbantartható kód írása

Elvárások

▹Tapasztalat nagy nyelvi modellekkel (LLM): a Transformer architektúra és scaling law-ok értése, mid-training és post-training technikák, reasoning és/vagy agentic modellek tanítása, LLM-ek gyakorlati használata a képességeik és korlátaik ismeretében
▹Reinforcement Learning tapasztalat: az RL-koncepciók biztos ismerete és a modern algoritmusok ismerete, tapasztalat elosztott, nagy léptékű RL pipeline-ok fejlesztésében az adatkészítéstől az evalokig
▹Erős gépi tanulási, algoritmikai és mérnöki háttér
▹Tapasztalat elosztott tanítással
▹Kiváló Python programozási készség
▹Jártasság valamely deep learning keretrendszerben (PyTorch vagy JAX)
▹Képesség a legújabb kutatások kellő részletességű megvitatására és megalapozott vélemény alkotására

Előny

▹Tudományos publikációk Reinforcement Learning, LLM-ek vagy reasoning modellek témában

Soft skillek

Intellektuális kíváncsiságErős munkamorálEgyüttműködő, alacsony egójú hozzáállásMegalapozottan véleményformáló

Amit kínálunk

▹Teljesen távmunka és rugalmas munkaidő
▹Évi 37 nap szabadság és ünnep
▹Egészségbiztosítási hozzájárulás neked és eltartottaidnak
▹16 hét rugalmas, teljes fizetéssel járó szülői szabadság
▹Well-being, folyamatos tanulási és home office juttatások
▹Cég által biztosított eszközök
▹Gyakori csapatösszejövetelek (havi 3 napos párizsi találkozó, éves off-site)
▹Sokszínű és befogadó, ember-központú kultúra