Дисципліна Data Engineering на Kubernetes
Запуск інфраструктури даних на Kubernetes — бази даних, черги, потокова обробка та аналітика.
Data Engineering на Kubernetes фокусується на викликах запуску систем зі станом (stateful) у динамічному середовищі. Ця дисципліна охоплює архітектуру сховищ, оператори для баз даних, масштабування потокових платформ та управління життєвим циклом даних. Ви навчитеся перетворювати Kubernetes на надійну платформу для ваших даних.
Модулі
Розділ «Модулі»| # | Module | Time | What You’ll Learn |
|---|---|---|---|
| 1.1 | Stateful на Kubernetes: Основи | 3 год | PV/PVC, StorageClasses, StatefulSets, Local Persistence |
| 1.2 | Оператори для баз даних | 4 год | CloudNativePG, Zalando Postgres, PGO, MySQL Operator |
| 1.3 | Стрімінг даних (Kafka на K8s) | 5 год | Strimzi, партиціонування, вирівнювання навантаження, Quotas |
| 1.4 | NoSQL та аналітичні БД | 4 год | ClickHouse (Altinity), MongoDB, Cassandra, Vector DBs |
| 1.5 | Оркестрація та якість даних | 3 год | Airflow на K8s, Spark on K8s, перевірки якості (Great Expectations) |
| 1.6 | Бекап та відновлення даних | 3 год | Velero, Kasten (K10), архітектура DR для даних |
Загальний час: ~22 години
Передумови
Розділ «Передумови»- Адміністрування Kubernetes (рівень CKA)
- Розуміння Kubernetes Storage (PV/PVC)
- Базові знання SQL та архітектури баз даних