Állás

Site Reliability Engineer (csendes-óceáni időzóna)

PostHog

Backend Developer • Remote • Teljes munkaidő • 📍 Remote (US)

Site Reliability Engineer pozíció a PostHog-nál, amely egy nyílt forráskódú termékanalitikai és fejlesztői platformcég (Y Combinator W20, 180m+ dollár bevont tőke, teljesen távmunkás). Ez nem egy tipikus "keep-the-lights-on" SRE szerep: a munka arról szól, hogy egy gyorsan növekvő, állapottartó (stateful) rendszert kiszámítható, jól automatizált platformmá alakítson a kiépítés, skálázás, újraelosztás és helyreállítás révén. A munkatárs olyan problémákon dolgozik, amelyek csak nagy léptékben jelennek meg (petabájtnyi adat, több ezer mag, folyamatos adatbevitel), egy több-régiós, több-fiókos AWS platformon, amely számos szolgáltatást futtat Kubernetesen. A pozíció csendes-óceáni időzónában lévő jelöltek számára nyitott.

Stack

AWS GitHub html Kubernetes Linux SQL Terraform

Feladatok

▹EKS klaszterek üzemeltetése több környezetben Karpenter autoscaling, Cilium hálózatkezelés és ArgoCD-vezérelt GitOps deploymentekkel
▹Több-AWS-fiókos szervezet kezelése és fejlesztése, beleértve a kiépítést, hálózatkezelést, hozzáférés-vezérlést és fiókok közötti kapcsolatot
▹A Terraform/Terragrunt IaC platform karbantartása, beleértve a modulokat, az automatizált plan-on-PR / apply-on-merge pipeline-okat és a megosztott infrastruktúra biztonságos mintáit
▹Üzemeltetési eszközök javítása a deploymentek, sémaváltozások, biztonsági mentések, visszaállítások és incidenskezelés terén
▹Az üzemeltetési terhelés csökkentése az ismétlődő fájdalompontok azonosításával és azok kódon és önjavító automatizáláson keresztüli megszüntetésével
▹A felhőköltségek folyamatos optimalizálása
▹Részvétel az ügyeletben (on-call) és incidenskezelésben, erős fókusszal arra, hogy idővel ritkábbak legyenek az incidensek

Elvárások

▹Mély gyakorlati tapasztalat Kubernetesszel éles környezetben (EKS előnyben), node pressure, hálózati problémák és deployment-hibák felderítésével nagy léptékben (több ezer node)
▹Erős tapasztalat éles infrastruktúra üzemeltetésében AWS-en, a szervezeti határok, IAM és a sok fiók közötti hálózatkezelés megértésével
▹Tapasztalat infrastruktúra automatizálásában Terraform vagy Terragrunt használatával nagy léptékben, beleértve a modultervezést és state-kezelést
▹Linux rendszerek alapos ismerete (lemez, memória, hálózat, hibajelenségek)
▹Tapasztalat állapottartó (stateful) rendszerek támogatásában (adatbázisok, sorok, tárolórendszerek stb.)
▹Képesség a teljesítmény- és megbízhatósági problémák felderítésére és átgondolására éles környezetben
▹Komfortos a rendszerek végponttól végpontig való tulajdonlása, beleértve az ügyeleti felelősséget
▹Csendes-óceáni időzónában él

Előny

▹Tapasztalat GitOps munkafolyamatokkal (ArgoCD) és CI/CD pipeline-okkal (GitHub Actions)
▹Tapasztalat AI ügynök-kompatibilis alap-szintű infrastruktúra szolgáltatások építésében gyorsan haladó csapatok számára
▹Jártasság több-régiós infrastruktúrában és az ezzel járó konzisztencia/rendelkezésre állás kompromisszumokban

Soft skillek

Lelkes, proaktív felelősségvállalás a projektekértOptimista problémamegoldás és kitartásAlacsony egójú, kedves, figyelmes és professzionális együttműködésŐszinte szenvedély az építés iránt