← Vissza a listához
Állás
Senior ML Systems Engineer, Frameworks & Tooling
Cohere
AI / ML Engineer
• Remote
• Teljes munkaidő
• 📍 London
Senior ML Systems Engineer a Cohere-nél, aki a frontier léptékű nyelvi modelleket működtető tréning framework építéséért, karbantartásáért és továbbfejlesztéséért felel. A pozíció a nagy léptékű tréning, az elosztott rendszerek és a HPC infrastruktúra metszéspontjában van, a kutatási ötleteket több ezer GPU-hoz kötő alapkomponensek és eszközök tulajdonosaként.
Stack
Feladatok
- ▹A nagy léptékű LLM tréningért felelős tréning framework építése és tulajdonlása
- ▹Elosztott tréning absztrakciók tervezése (data/tensor/pipeline parallelizmus, FSDP/ZeRO stratégiák, memóriakezelés, checkpointing)
- ▹Tréning áteresztőképesség és stabilitás javítása több-node-os klasztereken (pl. GB200/300, AMD, H200/100)
- ▹Monitorozási, naplózási, debuggolási és developer-ergonómiai eszközök fejlesztése és karbantartása
- ▹Együttműködés az infra csapatokkal, hogy a klaszter, a konténerkörnyezetek és a hardverkonfigurációk támogassák a nagy teljesítményű tréninget
- ▹Teljesítmény-szűk keresztmetszetek vizsgálata és megoldása az ML systems stack-en
- ▹Robusztus rendszerek építése reprodukálható, debuggolható, nagy léptékű futásokhoz
Elvárások
- ▹Erős mérnöki tapasztalat nagy léptékű elosztott tréningben vagy HPC rendszerekben
- ▹Mély jártasság a JAX belső működésében, elosztott tréning könyvtárakban vagy egyedi kernelekben/fused ops-ban
- ▹Tapasztalat több-node-os klaszter-orkesztrációval (Slurm, Ray, Kubernetes vagy hasonló)
- ▹Magabiztos hibakeresés teljesítményproblémákban CUDA/NCCL, hálózat, IO és adat-pipeline-ok terén
- ▹Tapasztalat konténerizált környezetekkel (Docker, Singularity/Apptainer)
- ▹Bizonyított tapasztalat olyan eszközök építésében, amelyek növelik az ML csapatok fejlesztői sebességét
- ▹Kiváló ítélőképesség a kompromisszumokról (teljesítmény vs komplexitás, kutatási sebesség vs karbantarthatóság)
- ▹Erős együttműködési készségek az infra, kutatási és deployment csapatokkal
Előny
- ▹Tapasztalat LLM-ek vagy más nagy transformer architektúrák tréningjében
- ▹Hozzájárulások ML keretrendszerekhez (PyTorch, JAX, DeepSpeed, Megatron, xFormers stb.)
- ▹Jártasság értékelési és serving keretrendszerekben (vLLM, TensorRT-LLM, egyedi KV cache-ek)
- ▹Tapasztalat adat-pipeline optimalizációval, shardelt adathalmazokkal vagy caching stratégiákkal
- ▹Háttér teljesítménymérnöki, profilozási vagy alacsony szintű rendszerek területén
- ▹Publikáció rangos konferenciákon (pl. NeurIPS, ICML, ICLR, AIStats, MLSys, JMLR, AAAI, Nature, COLING, ACL, EMNLP)
Soft skillek
Erős együttműködésKiváló ítélőképesség a kompromisszumokrólVégponttól végpontig tartó felelősségvállalás
Amit kínálunk
- ▹Heti $75/£75 (vagy helyi megfelelője) ebédtámogatás
- ▹Teljes egészség- és fogászati juttatások, külön mentális egészség kerettel
- ▹RRSP matching, 401K, nyugdíjprogram
- ▹100%-os szülői szabadság kiegészítés akár 6 hónapig bármelyik szülőnek
- ▹Éves enrichment juttatások és oktatási és tanulási támogatás
- ▹6 hét fizetett szabadság (30 munkanap)
- ▹Utazási keret más irodákhoz a távmunkásoknak, valamint éves céges offsite
- ▹$500 home office támogatás; co-working juttatás azoknak, akik nincsenek iroda közelében
Nyelvtudás: angol