Obserwowalnośćmedium

Jak mierzysz i poprawiasz MTTR?

Tagi

#mttr#incident-response#reliability

Wróć do kategorii Przejdź do quizu

Odpowiedź

MTTR (Mean Time To Recovery) mierzy, jak szybko przywracasz usługę po incydencie. Poprawa to lepsza detekcja, runbooki, szybkie rollbacki i wyćwiczony incident response.

Odpowiedź zaawansowana

Głębiej

Rozbij MTTR na fazy i optymalizuj każdą z nich:

Detekcja: alerty powiązane z SLO.
Triage: jasne role i właścicielstwo.
Mitigacja: rollback, feature flagi, traffic shifting.
Nauka: postmortem z action itemami.

Przykłady

Rozkład MTTR:

MTTR = time_to_detect + time_to_triage + time_to_mitigate

Typowe pułapki

Mierzenie tylko całości bez faz.
Brak ćwiczeń i procedur.
Wolne rollbacki przez manualne kroki.

Pytania uzupełniające na rozmowie

Jak definiujesz „recovered” w MTTR?
Jak wygląda dobry action item z postmortem?
Jak mierzysz poprawę w czasie?

Powiązane pytania

Obserwowalność

Czym jest SLI i jak go definiujesz?

#sli#slo#reliability

Czym jest DevOps poza narzędziami i jak mierzysz sukces?

#devops#culture#dora

Czemu synchroniczny fan-out (jeden request woła wiele serwisów) jest ryzykowny i jak to ograniczyć?