Модуль 10.10: FinOps у корпоративному масштабі

Складність: [COMPLEX] | Час на виконання: 2 год | Передумови: Основи хмар (AWS/Azure/GCP), Управління ресурсами Kubernetes, Enterprise Landing Zones (Модуль 10.1)

Чому цей модуль важливий

У березні 2024 року фінансовий директор однієї великої SaaS-компанії скликав екстрену нараду. Їхній рахунок за хмару зріс із $1.2 мільйона до $4.8 мільйона на місяць всього за півтора року. При цьому дохід зріс лише в 1.6 рази. Команда інженерів не могла пояснити причину. Як виявилося, їхні кластери Kubernetes запускали сотні сервісів, кожен із яких просив ресурси за принципом “краще перестрахуватися”. Середнє завантаження процесора (CPU) у всьому флоті складало лише 11%. Компанія платила за обчислення у 9 разів більше, ніж реально використовувала.

Ця історія не є винятком. Згідно зі звітом FinOps Foundation 2024 року, 73% організацій вважають хмарні втрати своєю головною проблемою, а середня компанія марнує 28% свого бюджету на хмару. У масштабах корпорації, де рахунки сягають десятків мільйонів доларів на рік, ці втрати означають мільйони, які могли б піти на розробку нових продуктів або збільшення штату.

FinOps у масштабі — це не про дрібну економію на одному поді. Це про побудову організаційної культури, де кожна команда розуміє, прогнозує та оптимізує свої витрати.

У цьому модулі ви вивчите економіку хмар, розберетеся, як працюють корпоративні програми знижок (EDP), навчитеся будувати моделі chargeback для спільних кластерів, дізнаєтеся справжню ціну мультихмарності та навчитеся використовувати VPA та Kubecost для автоматичної оптимізації.

Економіка хмар у масштабі

Хмарні провайдери працюють за простим принципом: чим більше ви обіцяєте витратити, тим менше платите за одиницю.

Рівні цін:

On-Demand (За запитом): Найдорожче. Ніяких зобов’язань.
Savings Plans / Reserved Instances: Знижка 30-60% за обіцянку платити фіксовану суму протягом 1-3 років.
Spot / Preemptible: Знижка до 90%. Але Google/Amazon можуть забрати сервер у будь-який момент.
Enterprise Discount Programs (EDP): Спеціальні контракти для великих клієнтів ($1M+/рік) із додатковою знижкою 5-15% на весь рахунок.

Головні “вбивці” бюджету в Kubernetes

Проблема	Чому це стається	Як виправити
Over-provisioning	Поди просять 2 ядра, а юзають 0.1	Використовуйте VPA (Vertical Pod Autoscaler) для рекомендацій
Idle Clusters	Тестові кластери працюють вночі	Налаштуйте автоматичне вимкнення або масштаб до 0 вузлів після 20:00
Cross-AZ Traffic	Трафік між зонами в AWS платний	Увімкніть Topology-aware routing, щоб поди спілкувалися всередині своєї зони
Осиротілі диски	Після видалення ВМ диски залишаються	Автоматизуйте видалення PVC та snapshots, якими ніхто не користується
NAT Gateway	Весь трафік в інтернет іде через NAT	Використовуйте VPC Endpoints для сервісів хмари (S3, ECR) — це безкоштовно

Chargeback: Хто за що платить?

Найважча задача FinOps — розділити чесну ціну сервера між 5 командами, чиї поди на ньому працюють.

Моделі розподілу:

По запитах (Requests): Команда платить за те, що вона ЗАБРОНЮВАЛА. Це стимулює розробників не просити зайвого.
По використанню (Usage): Команда платить за те, що реально СПОЖИЛА. Це чесно, але не враховує зарезервоване місце, яке пустує.
Гібридна (Рекомендовано): Команда платить за max(Request, Usage). Це найкращий спосіб змусити всіх бути ефективними.

Інструменти: Використовуйте OpenCost або Kubecost. Вони самі вираховують ціну кожного неймспейсу і навіть кожної мітки (label) в реальному часі.

Справжня ціна мультихмарності

Багато хто хоче мультихмару, щоб “не залежати від вендора”. Але в масштабі компанії це має приховану ціну:

Люди: Вам треба мати експертів і в AWS, і в Azure. Це подвоєння штату.
Інструменти: Вам потрібні платні Enterprise-версії моніторингу та безпеки, що працюють всюди.
Трафік: Передача даних між хмарами дуже дорога.
Втрата знижок: Розділивши бюджет $10M навпіл, ви отримаєте меншу знижку в обох провайдерів, ніж якби витратили всі $10M в одного.

Висновок: Мультихмарність має бути економічно виправданою (напр. специфічні сервіси ШІ в одній хмарі), а не просто страхом.

Типові помилки

Помилка	Чому це стається	Як виправити
Немає лімітів на поди	”Хай працює якнайшвидше”	Без лімітів один под може “з’їсти” весь сервер і підняти рахунок у 10 разів
Оплата за “запас”	Купівля RIs без аналізу	Аналізуйте використання за останні 90 днів перед покупкою зобов’язань
Ігнорування Spot-екземплярів	Страх збоїв	Використовуйте Spot для 80% тестових середовищ та воркерів черг
Оптимізація раз на рік	Стара звичка	FinOps — це безперервний процес. Налаштуйте щотижневі звіти командам

Тест

1. Ваш кластер має середнє завантаження CPU 15%. Що ви зробите в першу чергу для економії?

Я встановлю VPA (Vertical Pod Autoscaler) у режимі рекомендацій. Він покаже, наскільки реально поди перевищують свої запити (requests). Зменшення запитів дозволить Cluster Autoscaler видалити зайві сервери, що дасть миттєву економію до 50%.

2. У чому головна небезпека використання Spot-екземплярів у хмарі?

Їх можуть вимкнути з попередженням у 30-120 секунд. Тому на них не можна запускати бази даних або сервіси, які довго запускаються. Споти ідеальні для “худоби” (cattle) — того, що можна легко замінити.

Практична вправа: Аналіз ефективності

Встановіть OpenCost у ваш кластер.
Знайдіть неймспейс, який має найнижчу ефективність (Efficiency Score = Usage / Request).
Зменште запити (requests) для одного додатка вдвічі.
Простежте, як змінився ваш рахунок у Kubecost/OpenCost через 24 години.
Налаштуйте бюджетний алерт у хмарі, який спрацює, якщо витрати за день зростуть на 20% від середнього.

Вітаємо!

Ви завершили повний цикл Корпоративних та гібридних хмар. Тепер ви знаєте, як будувати фундамент (Landing Zones), впроваджувати правила (Policy as Code), доводити безпеку (Compliance), з’єднувати світи (Hybrid), керувати флотом (CAPI) та рахувати гроші (FinOps).

Ці навички — це вершина інженерії платформ. Ви готові створювати інфраструктуру, яка масштабується разом із великим бізнесом.

Що далі? Поверніться до головного меню, щоб переглянути свій прогрес або перейдіть до треку Платформної інженерії, щоб поглибити знання з SRE та GitOps.