← Vissza a listához
Állás
Site Reliability Engineer (csendes-óceáni időzóna)
Backend Developer
• Remote
• Teljes munkaidő
• 📍 Remote (US)
Site Reliability Engineer pozíció a PostHog-nál, amely egy nyílt forráskódú termékanalitikai és fejlesztői platformcég (Y Combinator W20, 180m+ dollár bevont tőke, teljesen távmunkás). Ez nem egy tipikus "keep-the-lights-on" SRE szerep: a munka arról szól, hogy egy gyorsan növekvő, állapottartó (stateful) rendszert kiszámítható, jól automatizált platformmá alakítson a kiépítés, skálázás, újraelosztás és helyreállítás révén. A munkatárs olyan problémákon dolgozik, amelyek csak nagy léptékben jelennek meg (petabájtnyi adat, több ezer mag, folyamatos adatbevitel), egy több-régiós, több-fiókos AWS platformon, amely számos szolgáltatást futtat Kubernetesen. A pozíció csendes-óceáni időzónában lévő jelöltek számára nyitott.
Feladatok
- ▹EKS klaszterek üzemeltetése több környezetben Karpenter autoscaling, Cilium hálózatkezelés és ArgoCD-vezérelt GitOps deploymentekkel
- ▹Több-AWS-fiókos szervezet kezelése és fejlesztése, beleértve a kiépítést, hálózatkezelést, hozzáférés-vezérlést és fiókok közötti kapcsolatot
- ▹A Terraform/Terragrunt IaC platform karbantartása, beleértve a modulokat, az automatizált plan-on-PR / apply-on-merge pipeline-okat és a megosztott infrastruktúra biztonságos mintáit
- ▹Üzemeltetési eszközök javítása a deploymentek, sémaváltozások, biztonsági mentések, visszaállítások és incidenskezelés terén
- ▹Az üzemeltetési terhelés csökkentése az ismétlődő fájdalompontok azonosításával és azok kódon és önjavító automatizáláson keresztüli megszüntetésével
- ▹A felhőköltségek folyamatos optimalizálása
- ▹Részvétel az ügyeletben (on-call) és incidenskezelésben, erős fókusszal arra, hogy idővel ritkábbak legyenek az incidensek
Elvárások
- ▹Mély gyakorlati tapasztalat Kubernetesszel éles környezetben (EKS előnyben), node pressure, hálózati problémák és deployment-hibák felderítésével nagy léptékben (több ezer node)
- ▹Erős tapasztalat éles infrastruktúra üzemeltetésében AWS-en, a szervezeti határok, IAM és a sok fiók közötti hálózatkezelés megértésével
- ▹Tapasztalat infrastruktúra automatizálásában Terraform vagy Terragrunt használatával nagy léptékben, beleértve a modultervezést és state-kezelést
- ▹Linux rendszerek alapos ismerete (lemez, memória, hálózat, hibajelenségek)
- ▹Tapasztalat állapottartó (stateful) rendszerek támogatásában (adatbázisok, sorok, tárolórendszerek stb.)
- ▹Képesség a teljesítmény- és megbízhatósági problémák felderítésére és átgondolására éles környezetben
- ▹Komfortos a rendszerek végponttól végpontig való tulajdonlása, beleértve az ügyeleti felelősséget
- ▹Csendes-óceáni időzónában él
Előny
- ▹Tapasztalat GitOps munkafolyamatokkal (ArgoCD) és CI/CD pipeline-okkal (GitHub Actions)
- ▹Tapasztalat AI ügynök-kompatibilis alap-szintű infrastruktúra szolgáltatások építésében gyorsan haladó csapatok számára
- ▹Jártasság több-régiós infrastruktúrában és az ezzel járó konzisztencia/rendelkezésre állás kompromisszumokban
Soft skillek
Lelkes, proaktív felelősségvállalás a projektekértOptimista problémamegoldás és kitartásAlacsony egójú, kedves, figyelmes és professzionális együttműködésŐszinte szenvedély az építés iránt