Перейти до вмісту

Надійність систем (Reliability Engineering)

Базовий курс (Foundation Track) | 5 модулів | ~2.5 години в цілому

Інженерна дисципліна побудови систем, що працюють саме тоді, коли вони потрібні користувачам. Теорія та принципи, які застосовні незалежно від вашого стека технологій.


Користувачам байдуже до вашої архітектури. Їх цікавить лише одне: чи працює система?

Надійність систем (Reliability Engineering) вчить вас:

  • Визначити, що означає «надійність» саме у вашому контексті
  • Вимірювати надійність об’єктивно
  • Проєктувати систему з урахуванням відмов ще до того, як вони стануться
  • Покращувати показники безперервно на основі даних

Це не про надію, що нічого не зламається. Це про інженерію систем, які виживають, коли стаються збої.


#МодульЧасОпис
2.1Що таке надійність?25-30 хвВизначення, «дев’ятки», MTBF/MTTR, бюджет помилок
2.2Режими та наслідки відмов30-35 хвFMEA, поступова деградація (graceful degradation), радіус ураження
2.3Надмірність та відмовостійкість30-35 хвHA проти FT, active-active, патерни резервування
2.4Вимірювання та покращення надійності35-40 хвМетрики, постмортеми та безперервне вдосконалення
2.5SLIs, SLOs та бюджет помилок — Теорія20-30 хвГлибоке занурення в ментальну модель SRE для цілей надійності

ПОЧНІТЬ ТУТ
┌─────────────────────────────────────┐
│ Модуль 2.1 │
│ Що таке надійність? │
│ └── Визначення та метрики │
│ └── «Дев'ятки» │
│ └── MTBF, MTTR, бюджети помилок │
└──────────────────┬──────────────────┘
┌─────────────────────────────────────┐
│ Модуль 2.2 │
│ Режими та наслідки відмов │
│ └── Класифікація відмов │
│ └── Методика FMEA │
│ └── Поступова деградація │
│ └── Радіус ураження │
└──────────────────┬──────────────────┘
┌─────────────────────────────────────┐
│ Модуль 2.3 │
│ Надмірність та відмовостійкість │
│ └── HA проти FT │
│ └── Active-passive проти active-active│
│ └── Патерни резервування │
│ └── Вартість надмірності │
└──────────────────┬──────────────────┘
┌─────────────────────────────────────┐
│ Модуль 2.4 │
│ Вимірювання та покращення │
│ └── Метрики надійності │
│ └── Постмортеми │
│ └── Безперервне вдосконалення │
└──────────────────┬──────────────────┘
┌─────────────────────────────────────┐
│ Модуль 2.5 │
│ SLIs, SLOs та бюджет помилок │
│ └── SLIs проти SLOs проти SLAs │
│ └── Бюджети помилок на практиці │
│ └── Ментальна модель SRE │
└──────────────────┬──────────────────┘
ЗАВЕРШЕНО
┌──────────────┼──────────────┐
│ │ │
▼ ▼ ▼
Теорія Принципи Дисципліна
Observability Security SRE

Ключові поняття, які ви вивчите

Розділ «Ключові поняття, які ви вивчите»
ПоняттяМодульЩо це означає
«Дев’ятки»2.199.9% проти 99.99% = десятикратна різниця в допустимому простої
MTBF/MTTR2.1Середній час між відмовами / до відновлення
Бюджет помилок (Error Budget)2.1, 2.5Допустима ненадійність як ресурс для витрачання
FMEA2.2Систематичний метод прогнозування відмов
Graceful Degradation2.2Часткова функціональність краще за повну відмову
Радіус ураження (Blast Radius)2.2Масштаб впливу при виникненні збою
Bulkhead Pattern2.2, 2.3Ізоляція для запобігання каскадним відмовам
Висока доступність (High Availability)2.3Система залишається працездатною з мінімальним простоєм
Відмовостійкість (Fault Tolerance)2.3Система продовжує роботу без жодної перерви
SLI/SLO/SLA2.5Фреймворк Індикатор/Ціль/Угода


Після завершення курсу Reliability Engineering ви будете готові до:

НапрямокЧому
Теорія ObservabilityНадійність неможливо покращити, не бачачи, що відбувається
Дисципліна SREВтілення Reliability Engineering в операційну практику
Принципи безпекиБезпека та надійність мають спільні патерни
Розподілені системиГлибоке занурення в CAP-теорему, консенсус та розподілені патерни

Книги, на які є посилання в цьому курсі:

  • «Site Reliability Engineering» — Google
  • «Release It! Second Edition» — Michael Nygard
  • «Designing Data-Intensive Applications» — Martin Kleppmann
  • «Implementing Service Level Objectives» — Alex Hidalgo

Статті:

  • «How Complex Systems Fail» — Richard Cook (доступно безкоштовно онлайн)

«Надійність — це не додаткова функція. Це те, як ви будуєте систему з самого початку».