← Vissza a listához
Állás

Engineering csapattag (Reinforcement Learning)

Poolside
AI / ML Engineer • Remote • Teljes munkaidő • 📍 Remote (EMEA

A Poolside, amely élvonalbeli, szoftverfejlesztésre fókuszáló LLM-eket épít az AGI felé vezető úton, a reinforcement learning csapatába keres munkatársat, amely RL segítségével javítja a nagy nyelvi modellek reasoning és kódolási képességeit. Ez a gyakorlatias, end-to-end szerep felöleli az új exploration- és tanítóalgoritmusok kutatását, RL-környezetek tervezését és skálázását, valamint az ötletek megvalósítását a teljes stacken, több ezer GPU-hoz való hozzáféréssel. A csapat teljesen távmunkás, Európában és Észak-Amerikában elosztva, havonta három napra Párizsban találkoznak.

Feladatok

  • Az LLM-ek reasoning- és kódgenerálási képességeinek javítását célzó kutatás és kísérletezés, a teljes kísérleti életciklus birtoklása az ötlettől a kísérletezésen át az integrációig
  • A legújabb kutatások és az LLM-ek, RL és kódgenerálás élvonalának követése, a kutatási ötletek tiszta, újrahasznosítható kódbázisokká alakítása, amelyekre mások építhetnek
  • Az LLM-ek adatgenerálásának és tanításának tervezése, elemzése és iterálása
  • RL tanító pipeline-ok megvalósítása és iterálása, amelyek megbízhatóan skálázódnak több területen
  • Tanítási instabilitások és hibák diagnosztizálása, RL futások debugolása és mitigációs módszerek javaslata
  • Magas színvonalú, reprodukálható és karbantartható kód írása

Elvárások

  • Tapasztalat nagy nyelvi modellekkel (LLM): a Transformer architektúra és scaling law-ok értése, mid-training és post-training technikák, reasoning és/vagy agentic modellek tanítása, LLM-ek gyakorlati használata a képességeik és korlátaik ismeretében
  • Reinforcement Learning tapasztalat: az RL-koncepciók biztos ismerete és a modern algoritmusok ismerete, tapasztalat elosztott, nagy léptékű RL pipeline-ok fejlesztésében az adatkészítéstől az evalokig
  • Erős gépi tanulási, algoritmikai és mérnöki háttér
  • Tapasztalat elosztott tanítással
  • Kiváló Python programozási készség
  • Jártasság valamely deep learning keretrendszerben (PyTorch vagy JAX)
  • Képesség a legújabb kutatások kellő részletességű megvitatására és megalapozott vélemény alkotására

Előny

  • Tudományos publikációk Reinforcement Learning, LLM-ek vagy reasoning modellek témában

Soft skillek

Intellektuális kíváncsiságErős munkamorálEgyüttműködő, alacsony egójú hozzáállásMegalapozottan véleményformáló

Amit kínálunk

  • Teljesen távmunka és rugalmas munkaidő
  • Évi 37 nap szabadság és ünnep
  • Egészségbiztosítási hozzájárulás neked és eltartottaidnak
  • 16 hét rugalmas, teljes fizetéssel járó szülői szabadság
  • Well-being, folyamatos tanulási és home office juttatások
  • Cég által biztosított eszközök
  • Gyakori csapatösszejövetelek (havi 3 napos párizsi találkozó, éves off-site)
  • Sokszínű és befogadó, ember-központú kultúra