Állás

Site Reliability Engineer

Backend Developer • Remote • Teljes munkaidő • 📍 Remote (US)

Site Reliability Engineer (SRE) pozíció a WorkOS-nál, amely fejlesztői eszközöket és API-kat épít a vállalati szintű felkészültséghez. Az SRE csapat gondoskodik arról, hogy a WorkOS platform gyors, megbízható és ellenálló maradjon nagy léptékben, több százmillió kérést kezelve, minimalizálva az állásidőt és folyamatosan javítva a teljesítményt. A csapat a teljes stacken dolgozik, szorosan együttműködik az infrastruktúra- és termékmérnöki csapatokkal, és a megbízhatóságot mindenbe beépíti, a skálázható rendszerek tervezésétől a megfigyelhetőség javításán át az incidenskezelés vezetéséig. Ez egy korai SRE szerep, lehetőséggel a cég nagy léptékű megbízhatósági megközelítésének alakítására.

Stack

AWS Grafana Kubernetes Prometheus TypeScript

Feladatok

▹A WorkOS megbízhatóságát és teljesítményét javító rendszerek, eszközök és folyamatok tervezése és fejlesztése
▹Együttműködés a termék- és infrastruktúra-csapatokkal, hogy a szolgáltatások éles üzemre készek, megfigyelhetők és hibatűrők legyenek
▹SLI-k/SLO-k meghatározása és mérése a megbízhatósági fejlesztések irányításához
▹Backend rendszerek írása és optimalizálása TypeScriptben, a teljesítményre, karbantarthatóságra és graceful degradationre fókuszálva
▹Az incidenskezelési folyamat javítása, postmortemek vezetése és a megbízhatósági kockázatok utánkövetése
▹Belső eszközök és automatizációk fejlesztése, amelyek megkönnyítik a rendszerek üzemeltetését és skálázását
▹Részvétel az ügyeleti (on-call) rotációban: éles incidensekre való reagálás, megoldás és tanulás belőlük
▹Hozzájárulás a design- és architektúra-megbeszélésekhez, az üzemeltethetőségre és hosszú távú fenntarthatóságra fókuszálva
▹Rendszerek dokumentálása, tanulságok megosztása és a megbízhatóság-központú mérnöki kultúra építése

Elvárások

▹Tapasztalat éles rendszerek üzemeltetésében és skálázásában felhőkörnyezetekben (AWS)
▹Jártasság a szolgáltatás-megbízhatósági fogalmakban: monitorozás, riasztás, incidenskezelés és gyökérok-elemzés
▹Otthonosság az infrastruktúra különböző rétegein (számítás, hálózat, tárolás, megfigyelhetőségi eszközök)
▹Erős hibakeresési és rendszerszemléleti készségek, képesség a problémák szolgáltatásokon és rétegeken átívelő követésére
▹Önálló munkavégzés képessége, felelősségvállalás és projektek végigvitele a probléma feltárásától a megoldásig

Előny

▹Jártasság Kubernetesben vagy hasonló orchestrációs rendszerekben
▹Tapasztalat megfigyelhetőségi stackekkel (Prometheus, Grafana, Datadog, OpenTelemetry)
▹Tapasztalat TypeScripttel vagy érdeklődés TypeScript-alapú kódbázisban való munka iránt

Soft skillek

Kíváncsiság és proaktivitásErős rendszerszemléletFelelősségvállalás és a feladatok végigviteleDiszciplínákon átívelő együttműködés

Amit kínálunk

▹Versenyképes fizetés
▹Jelentős részvényopciók (equity)
▹Egészségbiztosítás (orvosi, fogászati és látás) a munkavállalónak és családjának
▹401k nyugdíj-hozzájárulás
▹Havi wellness- és fitneszjuttatás
▹Fizetett szabadság, fizetett ünnepnapok és korlátlan betegszabadság
▹Szülői szabadság
▹Teljesen távmunkás munkavégzés
▹A felsorolt juttatások az USA-ban dolgozó munkavállalókra vonatkoznak