Перейти до вмісту

Теорія спостережуваності

Базовий трек | 4 модулі | ~2 години загалом

Наука розуміння поведінки системи за її зовнішніми вихідними даними. Теорія та принципи, що застосовуються незалежно від того, які інструменти ви використовуєте.


Чому теорія спостережуваності?

Розділ «Чому теорія спостережуваності?»

Ви не можете виправити те, чого не бачите. Але спостережуваність (observability) — це більше, ніж просто бачити, це про розуміння.

Теорія спостережуваності вчить вас:

  • Відрізняти моніторинг (відомі невідомі) від спостережуваності (невідомі невідомі)
  • Корелювати сигнали в логах, метриках та трасуваннях
  • Інструментувати системи для налагоджуваності, а не лише для сповіщень
  • Перетворювати дані на корисну інформацію для прийняття рішень

Це не про встановлення інструментів. Це про побудову ментальних моделей, які роблять ці інструменти корисними.


#МодульЧасОпис
3.1Що таке спостережуваність?25-30 хвПоходження з теорії управління, моніторинг vs спостережуваність
3.2Три стовпи30-35 хвЛоги, метрики, трасування та кореляція
3.3Принципи інструментування30-35 хвЩо вимірювати, патерни, проброс контексту
3.4Від даних до інсайтів35-40 хвФілософія алертингу, воркфлоу налагодження, ментальні моделі

ПОЧНІТЬ ТУТ
┌─────────────────────────────────────┐
│ Модуль 3.1 │
│ Що таке спостережуваність? │
│ └── Походження з теорії управління │
│ └── Моніторинг vs спостережуваність│
│ └── Рівняння спостережуваності │
└──────────────────┬──────────────────┘
┌─────────────────────────────────────┐
│ Модуль 3.2 │
│ Три стовпи │
│ └── Логи: події у часі │
│ └── Метрики: агреговані числа │
│ └── Трасування: шлях запиту │
│ └── Кореляція: четвертий стовп │
└──────────────────┬──────────────────┘
┌─────────────────────────────────────┐
│ Модуль 3.3 │
│ Принципи інструментування │
│ └── Що вимірювати │
│ └── Де інструментувати │
│ └── Проброс контексту │
│ └── Вартість спостережуваності │
└──────────────────┬──────────────────┘
┌─────────────────────────────────────┐
│ Модуль 3.4 │
│ Від даних до інсайтів │
│ └── Філософія алертингу │
│ └── Воркфлоу налагодження │
│ └── Дизайн дашбордів │
│ └── Ментальні моделі │
└──────────────────┬──────────────────┘
ЗАВЕРШЕНО
┌──────────────┼──────────────┐
│ │ │
▼ ▼ ▼
Принципи SRE Набір інструментів
безпеки Дисципліна спостережуваності

КонцепціяМодульЩо це означає
Спостережуваність3.1Здатність розуміти внутрішній стан системи за її зовнішніми даними
Кардинальність3.1, 3.3Кількість унікальних значень, які може мати вимір
Структуроване логування3.2Машиночитаний формат логів (JSON)
Рівні логів3.2Ієрархія ERROR, WARN, INFO, DEBUG
Типи метрик3.2Counter, gauge, histogram, summary
Спани (Spans)3.2Окремі операції всередині трасування
Контекст трасування3.2, 3.3Метадані, що передаються через розподілені виклики
RED Метод3.3Rate, Errors, Duration для сервісів
USE Метод3.3Utilization, Saturation, Errors для ресурсів
Золоті сигнали3.3Latency, traffic, errors, saturation
Signal-to-Noise3.4Співвідношення корисних алертив до загальної кількості
Alert Fatigue3.4Втома від великої кількості сповіщень


Після завершення теорії спостережуваності ви готові до:

ТрекЧому
Принципи безпекиМоніторинг безпеки використовує ті ж концепції
SRE ДисциплінаВпровадження спостережуваності в практику SRE
Інструменти спостережуваностіВивчення конкретних інструментів (Prometheus, Grafana, OTel)
Platform EngineeringВбудовування спостережуваності у вашу платформу

Книги, на які посилається цей трек:

  • “Observability Engineering” — Charity Majors, Liz Fong-Jones, George Miranda
  • “Distributed Systems Observability” — Cindy Sridharan
  • “Site Reliability Engineering” — Google (Розділи 4-6)
  • “The Art of Monitoring” — James Turnbull

Стандарти та специфікації:

  • OpenTelemetry — opentelemetry.io
  • W3C Trace Context — w3.org/TR/trace-context
  • Prometheus Data Model — prometheus.io/docs/concepts/data_model

Традиційний моніторингСучасна спостережуваність
Що зламалося?Чому воно зламалося?
Споглядання дашбордівПеревірка гіпотез
Відомі режими відмовНові режими відмов
Алерти на симптомиРозуміння кореневих причин
Більше метрик = кращеПравильні метрики = краще
Спочатку інструментиСпочатку питання

“Спостережуваність — це не про логи, метрики та трасування. Це про здатність ставити довільні питання вашій системі, не знаючи заздалегідь, які питання вам знадобляться.”

— Charity Majors