Модуль 3.4: Azure Blob Storage та Data Lake
Складність: [QUICK] | Час на виконання: 1.5 год | Передумови: Модуль 3.1 (Entra ID та RBAC)
Чому цей модуль важливий
Розділ «Чому цей модуль важливий»У січні 2022 року медична аналітична компанія виявила, що їхній рахунок за зберігання в Azure непомітно зріс із $800 до $14 200 на місяць. Причина була банальною: автоматичний конвеєр записував терабайти логів у сховище “гарячого” рівня (Hot tier). Оскільки ніхто не налаштував правила автоматичного видалення або архівації, дані накопичувалися місяцями за найвищим тарифом. Перенесення 90% цих даних в “архів” (Archive tier) могло б зекономити компанії понад $10 000 щомісяця.
Azure Blob Storage — це фундамент для зберігання будь-яких неструктурованих даних: від картинок для сайтів до гігантських бекапів баз даних та наборів даних для Big Data. На перший погляд сервіс здається простим, але неправильний вибір рівня доступу або схеми безпеки може коштувати вам або цілого бюджету, або витоку конфіденційної інформації.
У цьому модулі ви навчитеся створювати облікові записи зберігання (Storage Accounts), обирати правильні рівні доступу для економії, налаштовувати безпечний доступ через SAS-токени та зрозумієте, як працює Azure Data Lake для аналітики великих даних.
Storage Accounts: Контейнер для всього
Розділ «Storage Accounts: Контейнер для всього»Storage Account — це ресурс верхнього рівня. Усередині нього ви створюєте Containers (як папки), а в контейнерах зберігаєте самі файли — Blobs.
Типи редундантності (копіювання):
Розділ «Типи редундантності (копіювання):»- LRS (Locally Redundant): 3 копії в одному дата-центрі. Найдешевший варіант.
- ZRS (Zone Redundant): 3 копії в різних дата-центрах одного регіону. Виживе при пожежі в одному будинку.
- GRS (Geo-Redundant): Копії в іншому регіоні (напр. у США та Європі). Максимальний захист від катастроф.
Рівні доступу (Access Tiers): Ключ до економії
Розділ «Рівні доступу (Access Tiers): Ключ до економії»Azure пропонує чотири рівні. Головне правило: що дешевше зберігання, то дорожче читання файлів.
| Рівень | Коли використовувати | Ціна за ГБ |
|---|---|---|
| Hot | Файли, що потрібні щодня | Висока |
| Cool | Доступ раз на місяць (бекапи) | Середня |
| Cold | Доступ раз на квартал | Низька |
| Archive | Для законів та аудиту (раз на рік) | Найнижча |
Lifecycle Management: Ви можете налаштувати правило: “через 30 днів перенеси файл у Cool, через 180 — в Archive, а через рік — видали”.
Безпека: Як не відкрити дані всьому світу
Розділ «Безпека: Як не відкрити дані всьому світу»Є три способи дати доступ до файлів:
- Access Keys: Повний доступ до всього акаунта. Ніколи не давайте їх розробникам!
- Shared Access Signatures (SAS): Тимчасові посилання (напр. на 1 годину) на конкретний файл.
- Identity-Based (RBAC): Найкращий спосіб. Ви даєте доступ конкретній людині або віртуальній машині через Entra ID.
Azure Data Lake Storage Gen2
Розділ «Azure Data Lake Storage Gen2»Це просто функція Blob Storage під назвою Hierarchical Namespace.
- Звичайна Blob: Папок не існує, це лише візуальна ілюзія. Перейменувати “папку” з мільйоном файлів — це копіювати кожен файл окремо (дуже повільно).
- Data Lake: Справжні папки. Перейменування миттєве. Це необхідно для інструментів Big Data типу Spark або Databricks.
Типові помилки
Розділ «Типові помилки»| Помилка | Чому це стається | Як виправити |
|---|---|---|
| Все на рівні Hot | Default налаштування | Налаштуйте Lifecycle Management для старих даних |
| Публічний доступ до бакета | Для швидкої перевірки | Завжди вимикайте Allow Public Access на рівні акаунта |
| Видалення файлів з Archive занадто рано | Не знали про мінімальні терміни | Archive має мінімальний термін оплати 180 днів. Видалите раніше — все одно заплатите за півроку |
| Використання ключів у коді | Звичка з локальної розробки | Використовуйте Managed Identities; це безпечніше і не потребує паролів у коді |
Тест
Розділ «Тест»1. Що станеться, якщо спробувати прочитати файл, який знаходиться на рівні Archive?
Ви отримаєте помилку. Щоб прочитати файл з архіву, його треба “розморозити” (rehydrate) — перенести назад на рівень Hot або Cool. Це може зайняти до 15 годин.
2. У чому головна перевага ZRS (Zone Redundant Storage) перед LRS?
ZRS зберігає копії даних у трьох різних дата-центрах одного регіону. Якщо один дата-центр повністю вийде з ладу, ваші дані залишаться доступними без пауз.
Практична вправа: Безпечний обмін файлами
Розділ «Практична вправа: Безпечний обмін файлами»- Створіть Storage Account
labstorage. - Створіть контейнер
private-reports. - Завантажте будь-який файл.
- Згенеруйте SAS-токен тільки на читання (Read) на 30 хвилин.
- Спробуйте відкрити файл за отриманим посиланням у режимі інкогніто.
Наступний модуль
Розділ «Наступний модуль»Переходьте до Модуля 3.5: Azure DNS та Traffic Manager — ви навчитеся керувати доменами та налаштовувати глобальну маршрутизацію для роботи додатка у кількох регіонах одночасно.