Ho Lee Fuk

Сенсей
🛡 МОДЕРАТОР 🛡
Регистрация
22 Февраль 2018
Сообщения
11.084
Автор: learndataengineering

Название: dbt для инженеров данных (2025)

1750598790385-png.161831


Описание:

dbt for Data Engineers

learndataengineering

dbt (data build tool) - это инструмент трансформации данных с приоритетом SQL. Он позволяет просто и прозрачно преобразовывать, тестировать и документировать данные прямо внутри хранилища. Благодаря dbt, команды могут создавать надёжные наборы данных для аналитики, машинного обучения и бизнес-процессов - без необходимости выгружать данные наружу. Именно поэтому dbt становится ключевым инструментом в работе инженеров данных, и этот курс - идеальная отправная точка для его освоения.

Введение в dbt

Перед практикой вы узнаете:

- В чём разница между ETL и ELT,
- Какие вызовы стоят перед современными пайплайнами,
- Чем dbt Core и dbt Cloud отличаются и каковы их ключевые преимущества.

Настройка: Snowflake, dbt Core и GitHub

Для практики вы:

- создадите репозиторий на GitHub,
- заведёте аккаунт в dbt Cloud и настроите хранилище данных в Snowflake,
- выполните базовую настройку проекта в dbt и определите структуру модели (SQL или Python-файл).

Построение пайплайнов данных в dbt

Вы создадите цепочку моделей (pipelines), используя e-commerce-датасет. Вы будете использовать dbt Core, dbt Cloud и Snowflake для пошагового преобразования данных.

Материализации в dbt

После построения моделей вы научитесь сохранять результаты трансформаций:

- в таблицы,
- представления (views),
- инкрементальные или эфемерные модели.

Вы также узнаете, как работают внешние и внутренние источники dbt и зависимости между ними.

Тестирование моделей dbt

Вы научитесь тестировать модели - это ключевая часть надежной работы с данными:

- Схемные (generic) и пользовательские (bespoke) тесты,
- Проверка качества и консистентности данных на всех этапах пайплайна.

Деплой и расписание запуска моделей

Теперь, когда модели работают локально, вы научитесь:

- делиться ими с командой,
- запускать их по расписанию,
- обновлять модели автоматически.

Вы изучите практики деплоя и планирования в dbt Cloud.

Расширенные возможности dbt

В завершении курса:

- настроите CI/CD-процессы прямо в dbt Cloud,
- сгенерируете полноценную документацию проекта и поймёте, как использовать её в команде,
- узнаете о лучших практиках работы с dbt в продакшене.

Что входит в курс

- Репозиторий с исходным кодом (GitHub)
- E-commerce-датасет
- Пошаговые видеоуроки
- Подборка полезных ссылок и дополнительных материалов

Требования

- Базовые знания реляционных баз данных
- Умение работать с SQL
- Рекомендуется: базовый опыт с Git и облачными платформами (Snowflake, dbt Cloud)

Материал на английском языке

Подробнее:
Для просмотра содержимого вам необходимо авторизоваться.

Скачать:
Скрытое содержимое могут видеть только члены группы Премиум.


Скрытый контент для пользователей All-dar.
 

Создайте учетную запись или войдите, чтобы комментировать или скачивать материалы!

У вас должна быть учетная запись, чтобы оставлять комментарии

Зарегистрироваться

Создайте учетную запись. Это просто!

Авторизоваться

У вас уже есть аккаунт? Войдите здесь.

Сверху