AI/GPU інфраструктура на Kubernetes
Інфраструктурна сторона AI — планування GPU, розподілене навчання та обслуговування LLM у масштабі.
Ця дисципліна фокусується на інфраструктурних викликах запуску AI-навантажень на Kubernetes. Вона доповнює існуючу дисципліну MLOps (життєвий цикл моделей) та набір інструментів ML Platforms (такі інструменти як Kubeflow, MLflow). Тут ви навчитеся підготовці GPU, їх ефективному плануванню, запуску розподіленого навчання та обслуговуванню моделей у продакшні.
Модулі
Розділ «Модулі»| # | Модуль | Час | Що ви вивчите |
|---|---|---|---|
| 1.1 | Підготовка GPU та Device Plugins | 3 год | GPU Operator, NFD, DCGM-Exporter |
| 1.2 | Просунуте планування та спільне використання GPU | 4 год | MIG, time-slicing, DRA, topology-aware |
| 1.3 | Інфраструктура розподіленого навчання | 5 год | NCCL, Multus CNI, PyTorch Operator |
| 1.4 | Високопродуктивне сховище для AI | 3 год | NVMe кешування, JuiceFS, Fluid/Alluxio |
| 1.5 | Обслуговування LLM у масштабі | 4 год | vLLM, TGI, PagedAttention, KEDA |
| 1.6 | Планування витрат та ємності | 3 год | Spot GPUs, Karpenter, Kueue, вартість ініференсу |
Загальний час: ~22 години
Передумови
Розділ «Передумови»- Адміністрування Kubernetes (рівень CKA)
- Базові знання апаратного забезпечення Linux
- Знайомство з концепціями ML (корисно, але не обов’язково)