AI/GPU інфраструктура на Kubernetes

Інфраструктурна сторона AI — планування GPU, розподілене навчання та обслуговування LLM у масштабі.

Ця дисципліна фокусується на інфраструктурних викликах запуску AI-навантажень на Kubernetes. Вона доповнює існуючу дисципліну MLOps (життєвий цикл моделей) та набір інструментів ML Platforms (такі інструменти як Kubeflow, MLflow). Тут ви навчитеся підготовці GPU, їх ефективному плануванню, запуску розподіленого навчання та обслуговуванню моделей у продакшні.

Модулі

#	Модуль	Час	Що ви вивчите
1.1	Підготовка GPU та Device Plugins	3 год	GPU Operator, NFD, DCGM-Exporter
1.2	Просунуте планування та спільне використання GPU	4 год	MIG, time-slicing, DRA, topology-aware
1.3	Інфраструктура розподіленого навчання	5 год	NCCL, Multus CNI, PyTorch Operator
1.4	Високопродуктивне сховище для AI	3 год	NVMe кешування, JuiceFS, Fluid/Alluxio
1.5	Обслуговування LLM у масштабі	4 год	vLLM, TGI, PagedAttention, KEDA
1.6	Планування витрат та ємності	3 год	Spot GPUs, Karpenter, Kueue, вартість ініференсу

Загальний час: ~22 години

Передумови

Адміністрування Kubernetes (рівень CKA)
Базові знання апаратного забезпечення Linux
Знайомство з концепціями ML (корисно, але не обов’язково)