← Vissza a listához
Állás

Member of Engineering (Reinforcement Learning Infrastructure)

Poolside
AI / ML Engineer • Remote • Teljes munkaidő • 📍 Remote (EMEA

A Poolside, amely az AGI felé halad azáltal, hogy ágens-rendszerekkel, kódolási asszisztensekkel és az ezeket hajtó frontier modellekkel gyorsítja fel a szoftverfejlesztést, Member of Engineering munkatársat keres a megerősítéses tanulási (RL) csapatába. A csapat a nagy nyelvi modellek (LLM) érvelési és kódolási képességeinek megerősítéses tanulással való fejlesztésére összpontosít. Ez egy gyakorlatias, end-to-end szerepkör, amely az új exploration- vagy tanítási algoritmusok kutatásától az RL-környezetek tervezésén és skálázásán át az ötletek teljes stacken való megvalósításáig terjed, több ezer GPU-hoz való hozzáféréssel. A küldetés annak az infrastruktúrának a megépítése és skálázása, amely lehetővé teszi az LLM-ek megbízható, hatékony RL-tanítását az élvonalban. A csapat Európában és Észak-Amerikában elosztva dolgozik, havi 3 napos párizsi személyes találkozókkal.

Feladatok

  • Naprakészen tartás a legújabb kutatásokról és az LLM-ek, az RL és a kódgenerálás állásáról
  • Módszerek fejlesztése a tanítás és inferencia end-to-end hangolására a nagy áteresztőképesség érdekében
  • Adatkontroll-rendszerek tervezése az RL-pipeline-ban, amelyek szabályozzák, mit és mikor lát a modell
  • Olyan esetek hibakeresése, ahol az infrastrukturális döntések csendben rontják a tanulási dinamikát
  • Observability-eszközök építése, amelyek felszínre hozzák, ha egy rendszerszintű probléma a tanítási regresszió kiváltó oka
  • Robusztus, rugalmas és skálázható RL-pipeline-ok építésében való közreműködés
  • Teljesítményoptimalizálás a teljes stacken: hálózat, memória, számítási ütemezés és I/O
  • Magas minőségű, pragmatikus kód írása
  • Csapatmunka: a jövőbeli lépések tervezése, megbeszélése és a folyamatos kapcsolattartás

Elvárások

  • Tapasztalat LLM-ekkel és modell post-training munkafolyamatokkal
  • Annak megértése, hogyan működik a megerősítéses tanulás, és mik a fő szűk keresztmetszetei
  • Szilárd szoftvermérnöki alapok (tesztelés, code review, komplex rendszerek hibakeresése)
  • Jártasság Pythonban, a konkurencia, az aszinkron programozás, a multiprocessing és a teljesítményoptimalizálás ismeretével
  • Jártasság deep learning keretrendszerekkel (PyTorch vagy JAX) és RL-munkafolyamatokkal (rollouts, replay bufferek, policy frissítések)
  • Tapasztalat elosztott RL-tanítási rendszerek tervezésében és karbantartásában
  • Tapasztalat nagy léptékű LLM-tanítási infrastruktúrával
  • Tapasztalat a teljes stacket átfogó profilozó eszközökkel (pl. py-spy)
  • Tapasztalat inferencia-stackekkel (pl. vLLM)

Előny

  • Open-source hozzájárulások RL- vagy elosztott ML-projektekhez

Soft skillek

Intellektuális kíváncsiság és hajtóerőAlacsony ego és kedves, együttműködő hozzáállásGyakorlatias, end-to-end felelősségvállalásErős csapatmunka és kommunikáció

Amit kínálunk

  • Teljesen távmunka és rugalmas munkaidő
  • 37 nap szabadság és ünnepnap évente
  • Egészségbiztosítási hozzájárulás neked és eltartottjaidnak
  • 16 hét rugalmas, teljes fizetésű szülői szabadság
  • Well-being, folyamatos tanulási és otthoni iroda juttatások
  • Céges eszközök biztosítása
  • Gyakori csapattalálkozók (havi 3 napos párizsi összejövetelek)
  • Sokszínű és befogadó, ember-központú kultúra