Ho Lee Fuk

Сенсей
🛡 МОДЕРАТОР 🛡
Регистрация
22 Февраль 2018
Сообщения
10.751
Автор: learndataengineering

Название: Инженерия данных с использованием Databricks (2025)

1750589189532-png.161817


Описание:

Data Engineering on Databricks

learndataengineering

Databricks - одна из самых популярных платформ для обработки данных с использованием Apache Spark и создания современных хранилищ данных (Lakehouse). В этом курсе вы изучите всё, что нужно для уверенного старта работы с Databricks: от основ платформы до создания собственных пайплайнов и подключения BI-инструментов.

Вы узнаете, как работает Databricks, зачем его использовать, создадите свои ноутбуки, настроите кластер вычислений и познакомитесь с Databricks SQL Warehouse.

1. Установка и подготовка данных

Прежде чем приступить к практике, вы настроите Databricks на AWS, создадите S3-бакет для хранения данных и рабочее пространство. Также вы разберёте шаблон AWS CloudFormation, который использует Databricks, чтобы понимать, как инфраструктура разворачивается автоматически.

Проведёте обзор созданного кластера и ознакомитесь с датасетом, на основе которого будете строить свой ETL-процесс.

2. Практика: обработка данных

Вы изучите два способа загрузки данных в Databricks: напрямую или через S3 с последующей интеграцией. Также научитесь создавать репозитории кода. Это можно сделать двумя способами: подключить GitHub-репозиторий или создать репозиторий вручную прямо в Databricks.

Во время проекта вы выполните две ключевые задачи:

- ETL-обработка данных: запустите пайплайн, выполните преобразование, создадите таблицы и сохраните их в Databricks.
- Визуализация данных: в отдельном нотбуке выполните анализ с помощью Spark SQL и создадите визуализации.

Вы также узнаете, как хранятся данные внутри Databricks.

3. Хранилище данных и внешние интеграции

В завершение вы подключите Power BI к Databricks и попробуете оба способа интеграции: через вычислительный кластер и через SQL Warehouse. Таким образом, вы научитесь интегрировать Databricks с внешними аналитическими инструментами.

Рекомендации перед началом

Перед тем как начать этот курс, рекомендуется пройти курс "Основы Apache Spark". С этими базовыми знаниями вы сможете эффективно работать в Databricks.

Требования:

- Аккаунт AWS
- Аккаунт Databricks
- Знания основ Spark (достаточно уровня курса «Spark Fundamentals»)
- Затраты на AWS минимальны (особенно в рамках бесплатного уровня)

Материал на английском языке

Подробнее:
Для просмотра содержимого вам необходимо авторизоваться.

Скачать:
Скрытое содержимое могут видеть только члены группы Премиум.


Скрытый контент для пользователей All-dar.
 

Создайте учетную запись или войдите, чтобы комментировать или скачивать материалы!

У вас должна быть учетная запись, чтобы оставлять комментарии

Зарегистрироваться

Создайте учетную запись. Это просто!

Авторизоваться

У вас уже есть аккаунт? Войдите здесь.

Сверху