Перейти до вмісту

Надійність інженерних систем

Базовий трек | 4 модулі | ~2 години загалом

Інженерна дисципліна побудови систем, які працюють тоді, коли вони потрібні користувачам. Теорія та принципи, що застосовуються незалежно від вашого технологічного стека.


Чому надійність інженерних систем?

Розділ «Чому надійність інженерних систем?»

Користувачам байдуже до вашої архітектури. Їх цікавить одне: чи вона працює?

Надійність інженерії вчить вас:

  • Визначати, що означає “надійна” для вашого контексту
  • Вимірювати надійність об’єктивно
  • Проєктувати з урахуванням відмов ще до того, як вони стануться
  • Безперервно вдосконалюватися через рішення, засновані на даних

Це не про надію, що нічого не зламається. Це про проєктування систем, які виживають, коли це стається.


#МодульЧасОпис
2.1Що таке надійність?25-30 хвВизначення, “дев’ятки”, MTBF/MTTR, бюджети помилок
2.2Режими та наслідки відмов30-35 хвFMEA, деградація функціоналу, радіус ураження
2.3Надмірність та відмовостійкість30-35 хвHA vs FT, active-active, патерни надмірності
2.4Вимірювання та покращення надійності35-40 хвSLI, SLO, бюджети помилок, безперервне вдосконалення
2.5SLO, SLI та бюджети помилок20-30 хвГлибоке занурення в ментальну модель SRE для цілей надійності

ПОЧНІТЬ ТУТ
┌─────────────────────────────────────┐
│ Модуль 2.1 │
│ Що таке надійність? │
│ └── Визначення та метрики │
│ └── "Дев'ятки" │
│ └── MTBF, MTTR, бюджети помилок │
└──────────────────┬──────────────────┘
┌─────────────────────────────────────┐
│ Модуль 2.2 │
│ Режими та наслідки відмов │
│ └── Таксономія відмов │
│ └── Техніка FMEA │
│ └── Деградація функціоналу │
│ └── Радіус ураження │
└──────────────────┬──────────────────┘
┌─────────────────────────────────────┐
│ Модуль 2.3 │
│ Надмірність та відмовостійкість │
│ └── HA vs FT │
│ └── Active-passive vs active-active│
│ └── Патерни надмірності │
│ └── Вартість надмірності │
└──────────────────┬──────────────────┘
┌─────────────────────────────────────┐
│ Модуль 2.4 │
│ Вимірювання та покращення │
│ └── SLIs, SLOs, SLAs │
│ └── Бюджети помилок на практиці │
│ └── Постмортеми │
│ └── Безперервне вдосконалення │
└──────────────────┬──────────────────┘
ЗАВЕРШЕНО
┌──────────────┼──────────────┐
│ │ │
▼ ▼ ▼
Теорія спосте- Принципи SRE
режуваності безпеки Дисципліна

КонцепціяМодульЩо це означає
”Дев’ятки”2.199.9% vs 99.99% = 10-кратна різниця в дозволеному простої
MTBF/MTTR2.1Середній час між відмовами / до відновлення
Бюджет помилок2.1, 2.4Прийнятна ненадійність як ресурс для витрачання
FMEA2.2Систематична техніка прогнозування відмов
Graceful Degradation2.2Часткова функціональність краще за повний збій
Радіус ураження2.2Масштаб впливу, коли щось виходить з ладу
Bulkhead Pattern2.2, 2.3Ізоляція для запобігання каскадним збоям
High Availability2.3Система залишається працездатною з мінімальним простоєм
Fault Tolerance2.3Система продовжує працювати без жодних переривань
SLI/SLO/SLA2.4Фреймворк Індикатор/Ціль/Угода

  • Рекомендовано: Трек системного мислення
  • Корисно: деякий досвід експлуатації продакшн-систем
  • Корисно: розуміння основ розподілених систем

Після завершення надійності інженерних систем ви готові до:

ТрекЧому
Теорія спостережуваностіНеможливо покращити надійність, не бачачи, що відбувається
SRE ДисциплінаВпровадження надійності в операційну практику SRE
Принципи безпекиБезпека та надійність мають спільні патерни
Розподілені системиГлибоке занурення в CAP, консенсус та розподілені патерни

Книги, на які посилається цей трек:

  • “Site Reliability Engineering” — Google
  • “Release It! Second Edition” — Michael Nygard
  • “Designing Data-Intensive Applications” — Martin Kleppmann
  • “Implementing Service Level Objectives” — Alex Hidalgo

Статті:

  • “How Complex Systems Fail” — Richard Cook (безкоштовно онлайн)

“Надійність — це не функція, яку ви додаєте. Це те, як ви будуєте систему з самого початку.”