← Vissza a listához
Állás

Site Reliability Engineer (csendes-óceáni időzóna)

PostHog
Backend Developer • Remote • Teljes munkaidő • 📍 Remote (US)

Site Reliability Engineer pozíció a PostHog-nál, amely egy nyílt forráskódú termékanalitikai és fejlesztői platformcég (Y Combinator W20, 180m+ dollár bevont tőke, teljesen távmunkás). Ez nem egy tipikus "keep-the-lights-on" SRE szerep: a munka arról szól, hogy egy gyorsan növekvő, állapottartó (stateful) rendszert kiszámítható, jól automatizált platformmá alakítson a kiépítés, skálázás, újraelosztás és helyreállítás révén. A munkatárs olyan problémákon dolgozik, amelyek csak nagy léptékben jelennek meg (petabájtnyi adat, több ezer mag, folyamatos adatbevitel), egy több-régiós, több-fiókos AWS platformon, amely számos szolgáltatást futtat Kubernetesen. A pozíció csendes-óceáni időzónában lévő jelöltek számára nyitott.

Feladatok

  • EKS klaszterek üzemeltetése több környezetben Karpenter autoscaling, Cilium hálózatkezelés és ArgoCD-vezérelt GitOps deploymentekkel
  • Több-AWS-fiókos szervezet kezelése és fejlesztése, beleértve a kiépítést, hálózatkezelést, hozzáférés-vezérlést és fiókok közötti kapcsolatot
  • A Terraform/Terragrunt IaC platform karbantartása, beleértve a modulokat, az automatizált plan-on-PR / apply-on-merge pipeline-okat és a megosztott infrastruktúra biztonságos mintáit
  • Üzemeltetési eszközök javítása a deploymentek, sémaváltozások, biztonsági mentések, visszaállítások és incidenskezelés terén
  • Az üzemeltetési terhelés csökkentése az ismétlődő fájdalompontok azonosításával és azok kódon és önjavító automatizáláson keresztüli megszüntetésével
  • A felhőköltségek folyamatos optimalizálása
  • Részvétel az ügyeletben (on-call) és incidenskezelésben, erős fókusszal arra, hogy idővel ritkábbak legyenek az incidensek

Elvárások

  • Mély gyakorlati tapasztalat Kubernetesszel éles környezetben (EKS előnyben), node pressure, hálózati problémák és deployment-hibák felderítésével nagy léptékben (több ezer node)
  • Erős tapasztalat éles infrastruktúra üzemeltetésében AWS-en, a szervezeti határok, IAM és a sok fiók közötti hálózatkezelés megértésével
  • Tapasztalat infrastruktúra automatizálásában Terraform vagy Terragrunt használatával nagy léptékben, beleértve a modultervezést és state-kezelést
  • Linux rendszerek alapos ismerete (lemez, memória, hálózat, hibajelenségek)
  • Tapasztalat állapottartó (stateful) rendszerek támogatásában (adatbázisok, sorok, tárolórendszerek stb.)
  • Képesség a teljesítmény- és megbízhatósági problémák felderítésére és átgondolására éles környezetben
  • Komfortos a rendszerek végponttól végpontig való tulajdonlása, beleértve az ügyeleti felelősséget
  • Csendes-óceáni időzónában él

Előny

  • Tapasztalat GitOps munkafolyamatokkal (ArgoCD) és CI/CD pipeline-okkal (GitHub Actions)
  • Tapasztalat AI ügynök-kompatibilis alap-szintű infrastruktúra szolgáltatások építésében gyorsan haladó csapatok számára
  • Jártasság több-régiós infrastruktúrában és az ezzel járó konzisztencia/rendelkezésre állás kompromisszumokban

Soft skillek

Lelkes, proaktív felelősségvállalás a projektekértOptimista problémamegoldás és kitartásAlacsony egójú, kedves, figyelmes és professzionális együttműködésŐszinte szenvedély az építés iránt