Ho Lee Fuk

Сенсей
🛡 МОДЕРАТОР 🛡
Регистрация
22 Февраль 2018
Сообщения
10.743
Автор: learndataengineering

Название: Платформа Данных и Проектирование Пайплайна (2025)

1747281273279-png.158627


Описание:

Data Platform & Pipeline Design

learndataengineering

Дата-пайплайны - ключевой элемент любой платформы Data Science. Без них невозможна ни загрузка данных, ни запуск моделей машинного обучения. Этот практический курс продолжительностью 170 минут научит вас создавать потоковые (streaming), пакетные (batch) и машинные (ML) пайплайны, используя проверенные шаблоны и примеры для популярных облачных платформ.

Базовый модуль

Основы платформ и пайплайнов


Вы познакомитесь с архитектурой платформ и разными типами пайплайнов. Узнаете, чем они отличаются, как работают, как выглядит пайплайн машинного обучения, и как объединять их в рамках одной системы.

Архитектура платформы и сквозной пайплайн (End-to-End)

Поймёте, как устроена типовая архитектура платформы: соединение, буферизация, обработка, хранение и визуализация данных. На примере сквозного пайплайна разберётесь, как применять эту структуру в своей работе.

Push- и Pull-пайплайны

Разберётесь, в чём разница между push- и pull-моделью передачи данных - отправка против выборки. Включены наглядные примеры и схемы.

Batch и Streaming пайплайны

Один из важнейших блоков для инженера по данным. Вы научитесь различать и применять пакетную и потоковую обработку в зависимости от сценария.

Визуализация потоков данных

Поймёте, как визуализировать обработку и хранение данных - даже если у вас нет прямого доступа к ним. Пример с Apache Spark поможет закрепить материал.

Lambda-архитектура

Узнаете, как объединяются batch и stream пайплайны в рамках одной платформы - особенно важно для ML, где обучение идёт на batch-данных, а применение - через стриминг.

Примеры платформ

Вы изучите шаблоны архитектур на AWS, GCP, Azure и Hadoop, где увидите, как вписываются инструменты вроде Lambda, API Gateway и DynamoDB в реальную инфраструктуру.

Продвинутый модуль

Модели обработки: событийная, пакетная и потоковая


Разберётесь в различиях между event-driven, batch, micro-batching и streaming. Узнаете, как выбирать подходящий тип обработки под задачи: аналитика, транзакции, reverse ETL и другие.

Целевое проектирование и повтор платформенной схемы

Вы вернётесь к платформенной схеме и научитесь сопоставлять цели бизнеса и типы данных с архитектурными решениями. Вместо выбора инструментов «на глаз» вы научитесь проектировать систему от задачи.

Современные архитектуры: Lakehouse и Medallion

Поймёте, как Lakehouse объединяет хранение файлов и транзакционные таблицы, и как слои bronze-silver-gold в архитектуре Medallion помогают поддерживать порядок и масштабируемость.

Машинное обучение и генеративный ИИ (GenAI)

Узнаете, как пайплайны машинного обучения интегрируются в платформу: где происходит обучение, инференс и деплой. Познакомитесь с концепцией semantic search и Retrieval-Augmented Generation (RAG) - основой современных ИИ-приложений.

Тестирование платформы

Краткий, но важный модуль: стратегии тестирования пайплайнов на всех этапах - от загрузки и обработки до трансформации данных.

Этот курс даст вам целостное понимание платформ и пайплайнов и научит строить эффективную архитектуру, применимую в реальных облачных решениях. Идеально подойдёт как для начинающих инженеров, так и для тех, кто хочет выйти на следующий уровень.

Материал на английском языке

Подробнее:
Для просмотра содержимого вам необходимо авторизоваться.

Скачать:
Скрытое содержимое могут видеть только члены группы Премиум.


Скрытый контент для пользователей All-dar.
 

Создайте учетную запись или войдите, чтобы комментировать или скачивать материалы!

У вас должна быть учетная запись, чтобы оставлять комментарии

Зарегистрироваться

Создайте учетную запись. Это просто!

Авторизоваться

У вас уже есть аккаунт? Войдите здесь.

Сверху