Állás

Member of Engineering (Reinforcement Learning Infrastructure)

Poolside

AI / ML Engineer • Remote • Teljes munkaidő • 📍 Remote (EMEA

A Poolside, amely az AGI felé halad azáltal, hogy ágens-rendszerekkel, kódolási asszisztensekkel és az ezeket hajtó frontier modellekkel gyorsítja fel a szoftverfejlesztést, Member of Engineering munkatársat keres a megerősítéses tanulási (RL) csapatába. A csapat a nagy nyelvi modellek (LLM) érvelési és kódolási képességeinek megerősítéses tanulással való fejlesztésére összpontosít. Ez egy gyakorlatias, end-to-end szerepkör, amely az új exploration- vagy tanítási algoritmusok kutatásától az RL-környezetek tervezésén és skálázásán át az ötletek teljes stacken való megvalósításáig terjed, több ezer GPU-hoz való hozzáféréssel. A küldetés annak az infrastruktúrának a megépítése és skálázása, amely lehetővé teszi az LLM-ek megbízható, hatékony RL-tanítását az élvonalban. A csapat Európában és Észak-Amerikában elosztva dolgozik, havi 3 napos párizsi személyes találkozókkal.

Stack

Python PyTorch

Feladatok

▹Naprakészen tartás a legújabb kutatásokról és az LLM-ek, az RL és a kódgenerálás állásáról
▹Módszerek fejlesztése a tanítás és inferencia end-to-end hangolására a nagy áteresztőképesség érdekében
▹Adatkontroll-rendszerek tervezése az RL-pipeline-ban, amelyek szabályozzák, mit és mikor lát a modell
▹Olyan esetek hibakeresése, ahol az infrastrukturális döntések csendben rontják a tanulási dinamikát
▹Observability-eszközök építése, amelyek felszínre hozzák, ha egy rendszerszintű probléma a tanítási regresszió kiváltó oka
▹Robusztus, rugalmas és skálázható RL-pipeline-ok építésében való közreműködés
▹Teljesítményoptimalizálás a teljes stacken: hálózat, memória, számítási ütemezés és I/O
▹Magas minőségű, pragmatikus kód írása
▹Csapatmunka: a jövőbeli lépések tervezése, megbeszélése és a folyamatos kapcsolattartás

Elvárások

▹Tapasztalat LLM-ekkel és modell post-training munkafolyamatokkal
▹Annak megértése, hogyan működik a megerősítéses tanulás, és mik a fő szűk keresztmetszetei
▹Szilárd szoftvermérnöki alapok (tesztelés, code review, komplex rendszerek hibakeresése)
▹Jártasság Pythonban, a konkurencia, az aszinkron programozás, a multiprocessing és a teljesítményoptimalizálás ismeretével
▹Jártasság deep learning keretrendszerekkel (PyTorch vagy JAX) és RL-munkafolyamatokkal (rollouts, replay bufferek, policy frissítések)
▹Tapasztalat elosztott RL-tanítási rendszerek tervezésében és karbantartásában
▹Tapasztalat nagy léptékű LLM-tanítási infrastruktúrával
▹Tapasztalat a teljes stacket átfogó profilozó eszközökkel (pl. py-spy)
▹Tapasztalat inferencia-stackekkel (pl. vLLM)

Előny

▹Open-source hozzájárulások RL- vagy elosztott ML-projektekhez

Soft skillek

Intellektuális kíváncsiság és hajtóerőAlacsony ego és kedves, együttműködő hozzáállásGyakorlatias, end-to-end felelősségvállalásErős csapatmunka és kommunikáció

Amit kínálunk

▹Teljesen távmunka és rugalmas munkaidő
▹37 nap szabadság és ünnepnap évente
▹Egészségbiztosítási hozzájárulás neked és eltartottjaidnak
▹16 hét rugalmas, teljes fizetésű szülői szabadság
▹Well-being, folyamatos tanulási és otthoni iroda juttatások
▹Céges eszközök biztosítása
▹Gyakori csapattalálkozók (havi 3 napos párizsi összejövetelek)
▹Sokszínű és befogadó, ember-központú kultúra