Prskavčí blog

Oct 6, 2019

SRECon EMEA 2019, Dublin

Tento rok jsem 2 až 4 října se zúčastnil v Dublinu konference SRECon, která je jediná plně soustředěná na to co je Site Reliability Engineering jak to popisují knihy Site Reliability Engineering a The Site Reliability Workbook od Google. Když to ještě doplníte o Seeking SRE máte celou sbírku literatury.

SRECon začal v roce 2014 s 276 lidmi, dnes na SREConu EMEA 2019 bylo 819 lidí. Už to není úplně neznámá věc, kterou znají jen zasvěcení lidmi s Google nebo ex-Googlery, kteří to zavedli někde jinde jako byl SoundCloud. Je vidět, že podobnou potřebu měli všichni velcí hráči na trhu a dnes Google, Amazon, Microsoft a mnozí další mají svoje SRE.

Za tři dny přednášek a workshopů se opakovalo hodně to, že je to hlavně o kultuře než o tom jak se pozice jmenuje, o tom, že bezpečnost (vnitřní i vnější) je priorita. Že je potřeba přivést postupy, které se osvědčili v jiných odvětvích (CAST a STAMP 123).

Taky se mi líbilo, že hodně lidí se soustředilo na machine learning a jak to nemá smysl pro hodně případů, kdy se to lidé snaží aplikovat pro malé množství dat na kterých trénujete modely. Lepší výsledky lze často dosáhnout heuristickou analýzou a statistikou pro případy v SRE oblasti.

Diskuze o agregaci percentilů pro měření latence a že Prometheus histogram není histogram 4. Odborníci z mnoha firem jsou ponořeni do problematiky a hodně pracují podle vědeckých článků a výzkumů. Některé mi zůstali v záložkách prohlížeče. Například tento o loadbalancerech Maglev: A Fast and Reliable Software Network Load Balancer nebo tento post o ML a různých typech percentilů.

Taky se všichni shodují, že problém je v komplexitě systémů 5 a mi se musíme připravit na jejich selhání a minimalizovat možné škody, kterým lze zabránit pomocí třeba jen user experience. A neodvolávat se na lidskou chybu jak k tomu často dochází.

Z Česka bylo letos jen pár lidí a přednášku měl jen Vit Urbanec z Unity, která skvěle ukazovala na to, že když OPS přejmenujete na SRE tak tím SRE opravdu hned tak nezískáte.

Když to srovnám s programem devops.cz nebo devopssummit.cz tak se řeší jiné věci než se aktuálně řeší v SRE.

Ale rád si s každým o SRE popovídám, rád bych také více rozšířil povědomý co to SRE je a kde jsou ty klíčové body, kde SRE může vám pomocí a zda vůbec SRE potřebujete, protože to samozřejmě není pro každého.