← Vissza a listához
Állás

Senior ML Systems Engineer, Frameworks & Tooling

AI / ML Engineer • Remote • Teljes munkaidő • 📍 London

Senior ML Systems Engineer a Cohere-nél, aki a frontier léptékű nyelvi modelleket működtető tréning framework építéséért, karbantartásáért és továbbfejlesztéséért felel. A pozíció a nagy léptékű tréning, az elosztott rendszerek és a HPC infrastruktúra metszéspontjában van, a kutatási ötleteket több ezer GPU-hoz kötő alapkomponensek és eszközök tulajdonosaként.

Feladatok

  • A nagy léptékű LLM tréningért felelős tréning framework építése és tulajdonlása
  • Elosztott tréning absztrakciók tervezése (data/tensor/pipeline parallelizmus, FSDP/ZeRO stratégiák, memóriakezelés, checkpointing)
  • Tréning áteresztőképesség és stabilitás javítása több-node-os klasztereken (pl. GB200/300, AMD, H200/100)
  • Monitorozási, naplózási, debuggolási és developer-ergonómiai eszközök fejlesztése és karbantartása
  • Együttműködés az infra csapatokkal, hogy a klaszter, a konténerkörnyezetek és a hardverkonfigurációk támogassák a nagy teljesítményű tréninget
  • Teljesítmény-szűk keresztmetszetek vizsgálata és megoldása az ML systems stack-en
  • Robusztus rendszerek építése reprodukálható, debuggolható, nagy léptékű futásokhoz

Elvárások

  • Erős mérnöki tapasztalat nagy léptékű elosztott tréningben vagy HPC rendszerekben
  • Mély jártasság a JAX belső működésében, elosztott tréning könyvtárakban vagy egyedi kernelekben/fused ops-ban
  • Tapasztalat több-node-os klaszter-orkesztrációval (Slurm, Ray, Kubernetes vagy hasonló)
  • Magabiztos hibakeresés teljesítményproblémákban CUDA/NCCL, hálózat, IO és adat-pipeline-ok terén
  • Tapasztalat konténerizált környezetekkel (Docker, Singularity/Apptainer)
  • Bizonyított tapasztalat olyan eszközök építésében, amelyek növelik az ML csapatok fejlesztői sebességét
  • Kiváló ítélőképesség a kompromisszumokról (teljesítmény vs komplexitás, kutatási sebesség vs karbantarthatóság)
  • Erős együttműködési készségek az infra, kutatási és deployment csapatokkal

Előny

  • Tapasztalat LLM-ek vagy más nagy transformer architektúrák tréningjében
  • Hozzájárulások ML keretrendszerekhez (PyTorch, JAX, DeepSpeed, Megatron, xFormers stb.)
  • Jártasság értékelési és serving keretrendszerekben (vLLM, TensorRT-LLM, egyedi KV cache-ek)
  • Tapasztalat adat-pipeline optimalizációval, shardelt adathalmazokkal vagy caching stratégiákkal
  • Háttér teljesítménymérnöki, profilozási vagy alacsony szintű rendszerek területén
  • Publikáció rangos konferenciákon (pl. NeurIPS, ICML, ICLR, AIStats, MLSys, JMLR, AAAI, Nature, COLING, ACL, EMNLP)

Soft skillek

Erős együttműködésKiváló ítélőképesség a kompromisszumokrólVégponttól végpontig tartó felelősségvállalás

Amit kínálunk

  • Heti $75/£75 (vagy helyi megfelelője) ebédtámogatás
  • Teljes egészség- és fogászati juttatások, külön mentális egészség kerettel
  • RRSP matching, 401K, nyugdíjprogram
  • 100%-os szülői szabadság kiegészítés akár 6 hónapig bármelyik szülőnek
  • Éves enrichment juttatások és oktatási és tanulási támogatás
  • 6 hét fizetett szabadság (30 munkanap)
  • Utazási keret más irodákhoz a távmunkásoknak, valamint éves céges offsite
  • $500 home office támogatás; co-working juttatás azoknak, akik nincsenek iroda közelében
Nyelvtudás: angol