Перейти до вмісту

AI/GPU інфраструктура на Kubernetes

Інфраструктурна сторона AI — планування GPU, розподілене навчання та обслуговування LLM у масштабі.

Ця дисципліна фокусується на інфраструктурних викликах запуску AI-навантажень на Kubernetes. Вона доповнює існуючу дисципліну MLOps (життєвий цикл моделей) та набір інструментів ML Platforms (такі інструменти як Kubeflow, MLflow). Тут ви навчитеся підготовці GPU, їх ефективному плануванню, запуску розподіленого навчання та обслуговуванню моделей у продакшні.


#МодульЧасЩо ви вивчите
1.1Підготовка GPU та Device Plugins3 годGPU Operator, NFD, DCGM-Exporter
1.2Просунуте планування та спільне використання GPU4 годMIG, time-slicing, DRA, topology-aware
1.3Інфраструктура розподіленого навчання5 годNCCL, Multus CNI, PyTorch Operator
1.4Високопродуктивне сховище для AI3 годNVMe кешування, JuiceFS, Fluid/Alluxio
1.5Обслуговування LLM у масштабі4 годvLLM, TGI, PagedAttention, KEDA
1.6Планування витрат та ємності3 годSpot GPUs, Karpenter, Kueue, вартість ініференсу

Загальний час: ~22 години


  • Адміністрування Kubernetes (рівень CKA)
  • Базові знання апаратного забезпечення Linux
  • Знайомство з концепціями ML (корисно, але не обов’язково)