Member of Engineering (Reinforcement Learning Infrastructure)
A Poolside, amely az AGI felé halad azáltal, hogy ágens-rendszerekkel, kódolási asszisztensekkel és az ezeket hajtó frontier modellekkel gyorsítja fel a szoftverfejlesztést, Member of Engineering munkatársat keres a megerősítéses tanulási (RL) csapatába. A csapat a nagy nyelvi modellek (LLM) érvelési és kódolási képességeinek megerősítéses tanulással való fejlesztésére összpontosít. Ez egy gyakorlatias, end-to-end szerepkör, amely az új exploration- vagy tanítási algoritmusok kutatásától az RL-környezetek tervezésén és skálázásán át az ötletek teljes stacken való megvalósításáig terjed, több ezer GPU-hoz való hozzáféréssel. A küldetés annak az infrastruktúrának a megépítése és skálázása, amely lehetővé teszi az LLM-ek megbízható, hatékony RL-tanítását az élvonalban. A csapat Európában és Észak-Amerikában elosztva dolgozik, havi 3 napos párizsi személyes találkozókkal.
Feladatok
- ▹Naprakészen tartás a legújabb kutatásokról és az LLM-ek, az RL és a kódgenerálás állásáról
- ▹Módszerek fejlesztése a tanítás és inferencia end-to-end hangolására a nagy áteresztőképesség érdekében
- ▹Adatkontroll-rendszerek tervezése az RL-pipeline-ban, amelyek szabályozzák, mit és mikor lát a modell
- ▹Olyan esetek hibakeresése, ahol az infrastrukturális döntések csendben rontják a tanulási dinamikát
- ▹Observability-eszközök építése, amelyek felszínre hozzák, ha egy rendszerszintű probléma a tanítási regresszió kiváltó oka
- ▹Robusztus, rugalmas és skálázható RL-pipeline-ok építésében való közreműködés
- ▹Teljesítményoptimalizálás a teljes stacken: hálózat, memória, számítási ütemezés és I/O
- ▹Magas minőségű, pragmatikus kód írása
- ▹Csapatmunka: a jövőbeli lépések tervezése, megbeszélése és a folyamatos kapcsolattartás
Elvárások
- ▹Tapasztalat LLM-ekkel és modell post-training munkafolyamatokkal
- ▹Annak megértése, hogyan működik a megerősítéses tanulás, és mik a fő szűk keresztmetszetei
- ▹Szilárd szoftvermérnöki alapok (tesztelés, code review, komplex rendszerek hibakeresése)
- ▹Jártasság Pythonban, a konkurencia, az aszinkron programozás, a multiprocessing és a teljesítményoptimalizálás ismeretével
- ▹Jártasság deep learning keretrendszerekkel (PyTorch vagy JAX) és RL-munkafolyamatokkal (rollouts, replay bufferek, policy frissítések)
- ▹Tapasztalat elosztott RL-tanítási rendszerek tervezésében és karbantartásában
- ▹Tapasztalat nagy léptékű LLM-tanítási infrastruktúrával
- ▹Tapasztalat a teljes stacket átfogó profilozó eszközökkel (pl. py-spy)
- ▹Tapasztalat inferencia-stackekkel (pl. vLLM)
Előny
- ▹Open-source hozzájárulások RL- vagy elosztott ML-projektekhez
Soft skillek
Amit kínálunk
- ▹Teljesen távmunka és rugalmas munkaidő
- ▹37 nap szabadság és ünnepnap évente
- ▹Egészségbiztosítási hozzájárulás neked és eltartottjaidnak
- ▹16 hét rugalmas, teljes fizetésű szülői szabadság
- ▹Well-being, folyamatos tanulási és otthoni iroda juttatások
- ▹Céges eszközök biztosítása
- ▹Gyakori csapattalálkozók (havi 3 napos párizsi összejövetelek)
- ▹Sokszínű és befogadó, ember-központú kultúra