Теорія спостережуваності
Базовий трек | 4 модулі | ~2 години загалом
Наука розуміння поведінки системи за її зовнішніми вихідними даними. Теорія та принципи, що застосовуються незалежно від того, які інструменти ви використовуєте.
Чому теорія спостережуваності?
Розділ «Чому теорія спостережуваності?»Ви не можете виправити те, чого не бачите. Але спостережуваність (observability) — це більше, ніж просто бачити, це про розуміння.
Теорія спостережуваності вчить вас:
- Відрізняти моніторинг (відомі невідомі) від спостережуваності (невідомі невідомі)
- Корелювати сигнали в логах, метриках та трасуваннях
- Інструментувати системи для налагоджуваності, а не лише для сповіщень
- Перетворювати дані на корисну інформацію для прийняття рішень
Це не про встановлення інструментів. Це про побудову ментальних моделей, які роблять ці інструменти корисними.
Модулі
Розділ «Модулі»| # | Модуль | Час | Опис |
|---|---|---|---|
| 3.1 | Що таке спостережуваність? | 25-30 хв | Походження з теорії управління, моніторинг vs спостережуваність |
| 3.2 | Три стовпи | 30-35 хв | Логи, метрики, трасування та кореляція |
| 3.3 | Принципи інструментування | 30-35 хв | Що вимірювати, патерни, проброс контексту |
| 3.4 | Від даних до інсайтів | 35-40 хв | Філософія алертингу, воркфлоу налагодження, ментальні моделі |
Шлях навчання
Розділ «Шлях навчання»ПОЧНІТЬ ТУТ │ ▼┌─────────────────────────────────────┐│ Модуль 3.1 ││ Що таке спостережуваність? ││ └── Походження з теорії управління ││ └── Моніторинг vs спостережуваність││ └── Рівняння спостережуваності │└──────────────────┬──────────────────┘ │ ▼┌─────────────────────────────────────┐│ Модуль 3.2 ││ Три стовпи ││ └── Логи: події у часі ││ └── Метрики: агреговані числа ││ └── Трасування: шлях запиту ││ └── Кореляція: четвертий стовп │└──────────────────┬──────────────────┘ │ ▼┌─────────────────────────────────────┐│ Модуль 3.3 ││ Принципи інструментування ││ └── Що вимірювати ││ └── Де інструментувати ││ └── Проброс контексту ││ └── Вартість спостережуваності │└──────────────────┬──────────────────┘ │ ▼┌─────────────────────────────────────┐│ Модуль 3.4 ││ Від даних до інсайтів ││ └── Філософія алертингу ││ └── Воркфлоу налагодження ││ └── Дизайн дашбордів ││ └── Ментальні моделі │└──────────────────┬──────────────────┘ │ ▼ ЗАВЕРШЕНО │ ┌──────────────┼──────────────┐ │ │ │ ▼ ▼ ▼ Принципи SRE Набір інструментів безпеки Дисципліна спостережуваностіКлючові концепції
Розділ «Ключові концепції»| Концепція | Модуль | Що це означає |
|---|---|---|
| Спостережуваність | 3.1 | Здатність розуміти внутрішній стан системи за її зовнішніми даними |
| Кардинальність | 3.1, 3.3 | Кількість унікальних значень, які може мати вимір |
| Структуроване логування | 3.2 | Машиночитаний формат логів (JSON) |
| Рівні логів | 3.2 | Ієрархія ERROR, WARN, INFO, DEBUG |
| Типи метрик | 3.2 | Counter, gauge, histogram, summary |
| Спани (Spans) | 3.2 | Окремі операції всередині трасування |
| Контекст трасування | 3.2, 3.3 | Метадані, що передаються через розподілені виклики |
| RED Метод | 3.3 | Rate, Errors, Duration для сервісів |
| USE Метод | 3.3 | Utilization, Saturation, Errors для ресурсів |
| Золоті сигнали | 3.3 | Latency, traffic, errors, saturation |
| Signal-to-Noise | 3.4 | Співвідношення корисних алертив до загальної кількості |
| Alert Fatigue | 3.4 | Втома від великої кількості сповіщень |
Передумови
Розділ «Передумови»- Обов’язково: Трек системного мислення
- Рекомендовано: Трек надійності інженерних систем
- Корисно: досвід запуску будь-якої продакшн-системи
- Корисно: базове розуміння HTTP та розподілених систем
Куди це веде
Розділ «Куди це веде»Після завершення теорії спостережуваності ви готові до:
| Трек | Чому |
|---|---|
| Принципи безпеки | Моніторинг безпеки використовує ті ж концепції |
| SRE Дисципліна | Впровадження спостережуваності в практику SRE |
| Інструменти спостережуваності | Вивчення конкретних інструментів (Prometheus, Grafana, OTel) |
| Platform Engineering | Вбудовування спостережуваності у вашу платформу |
Ключові ресурси
Розділ «Ключові ресурси»Книги, на які посилається цей трек:
- “Observability Engineering” — Charity Majors, Liz Fong-Jones, George Miranda
- “Distributed Systems Observability” — Cindy Sridharan
- “Site Reliability Engineering” — Google (Розділи 4-6)
- “The Art of Monitoring” — James Turnbull
Стандарти та специфікації:
- OpenTelemetry — opentelemetry.io
- W3C Trace Context — w3.org/TR/trace-context
- Prometheus Data Model — prometheus.io/docs/concepts/data_model
Ментальний зсув
Розділ «Ментальний зсув»| Традиційний моніторинг | Сучасна спостережуваність |
|---|---|
| Що зламалося? | Чому воно зламалося? |
| Споглядання дашбордів | Перевірка гіпотез |
| Відомі режими відмов | Нові режими відмов |
| Алерти на симптоми | Розуміння кореневих причин |
| Більше метрик = краще | Правильні метрики = краще |
| Спочатку інструменти | Спочатку питання |
“Спостережуваність — це не про логи, метрики та трасування. Це про здатність ставити довільні питання вашій системі, не знаючи заздалегідь, які питання вам знадобляться.”
— Charity Majors