Állás

Senior ML Systems Engineer, Frameworks & Tooling

AI / ML Engineer • Remote • Teljes munkaidő • 📍 London

Senior ML Systems Engineer a Cohere-nél, aki a frontier léptékű nyelvi modelleket működtető tréning framework építéséért, karbantartásáért és továbbfejlesztéséért felel. A pozíció a nagy léptékű tréning, az elosztott rendszerek és a HPC infrastruktúra metszéspontjában van, a kutatási ötleteket több ezer GPU-hoz kötő alapkomponensek és eszközök tulajdonosaként.

Stack

Docker Kubernetes PyTorch

Feladatok

▹A nagy léptékű LLM tréningért felelős tréning framework építése és tulajdonlása
▹Elosztott tréning absztrakciók tervezése (data/tensor/pipeline parallelizmus, FSDP/ZeRO stratégiák, memóriakezelés, checkpointing)
▹Tréning áteresztőképesség és stabilitás javítása több-node-os klasztereken (pl. GB200/300, AMD, H200/100)
▹Monitorozási, naplózási, debuggolási és developer-ergonómiai eszközök fejlesztése és karbantartása
▹Együttműködés az infra csapatokkal, hogy a klaszter, a konténerkörnyezetek és a hardverkonfigurációk támogassák a nagy teljesítményű tréninget
▹Teljesítmény-szűk keresztmetszetek vizsgálata és megoldása az ML systems stack-en
▹Robusztus rendszerek építése reprodukálható, debuggolható, nagy léptékű futásokhoz

Elvárások

▹Erős mérnöki tapasztalat nagy léptékű elosztott tréningben vagy HPC rendszerekben
▹Mély jártasság a JAX belső működésében, elosztott tréning könyvtárakban vagy egyedi kernelekben/fused ops-ban
▹Tapasztalat több-node-os klaszter-orkesztrációval (Slurm, Ray, Kubernetes vagy hasonló)
▹Magabiztos hibakeresés teljesítményproblémákban CUDA/NCCL, hálózat, IO és adat-pipeline-ok terén
▹Tapasztalat konténerizált környezetekkel (Docker, Singularity/Apptainer)
▹Bizonyított tapasztalat olyan eszközök építésében, amelyek növelik az ML csapatok fejlesztői sebességét
▹Kiváló ítélőképesség a kompromisszumokról (teljesítmény vs komplexitás, kutatási sebesség vs karbantarthatóság)
▹Erős együttműködési készségek az infra, kutatási és deployment csapatokkal

Előny

▹Tapasztalat LLM-ek vagy más nagy transformer architektúrák tréningjében
▹Hozzájárulások ML keretrendszerekhez (PyTorch, JAX, DeepSpeed, Megatron, xFormers stb.)
▹Jártasság értékelési és serving keretrendszerekben (vLLM, TensorRT-LLM, egyedi KV cache-ek)
▹Tapasztalat adat-pipeline optimalizációval, shardelt adathalmazokkal vagy caching stratégiákkal
▹Háttér teljesítménymérnöki, profilozási vagy alacsony szintű rendszerek területén
▹Publikáció rangos konferenciákon (pl. NeurIPS, ICML, ICLR, AIStats, MLSys, JMLR, AAAI, Nature, COLING, ACL, EMNLP)

Soft skillek

Erős együttműködésKiváló ítélőképesség a kompromisszumokrólVégponttól végpontig tartó felelősségvállalás

Amit kínálunk

▹Heti $75/£75 (vagy helyi megfelelője) ebédtámogatás
▹Teljes egészség- és fogászati juttatások, külön mentális egészség kerettel
▹RRSP matching, 401K, nyugdíjprogram
▹100%-os szülői szabadság kiegészítés akár 6 hónapig bármelyik szülőnek
▹Éves enrichment juttatások és oktatási és tanulási támogatás
▹6 hét fizetett szabadság (30 munkanap)
▹Utazási keret más irodákhoz a távmunkásoknak, valamint éves céges offsite
▹$500 home office támogatás; co-working juttatás azoknak, akik nincsenek iroda közelében

Nyelvtudás: angol