o11y - på tide å dumpe loggen?

Fredrik Vraalsen

Short talk - in English

Hva gjør du når systemet ditt er nede?
Hvordan finner du ut *at* det er nede?
Og for hvem, om det ikke gjelder alle brukere?
Hvordan går du frem for å identifisere hva som er problemet?

Logger og metrikker hjelper oss i utgangspunktet bare med å finne "known unknowns", altså de problemene man kjenner til og derfor har lagt til logging eller målinger for. Det hjelper oss lite med å identifisere "unknown unknowns", de problemene man ikke har vært borti før, som blir mer vanlig i de mer og mer distribuerte og dynamiske systemene vi bygger. Vi har begynt å jobbe med Observability (o11y). Hva betyr dette egentlig for et system, og hvordan kan vi oppnå det? Jeg tenkte å dele litt av det vi har funnet og erfart så langt.