Ho Lee Fuk

Сенсей
🛡 МОДЕРАТОР 🛡
Регистрация
22 Февраль 2018
Сообщения
11.084
Автор: learndataengineering

Название: Стриминг с Kafka и Spark (2025)

1750970439514-png.162142


Описание:

Streaming with Kafka & Spark

learndataengineering

Этот курс - полноценный проект с полным циклом обработки данных в реальном времени. Вы будете работать с данными интернет-магазина, включающими счета-фактуры для клиентов и товары из этих счетов. Цель курса - настроить потоковую обработку данных (инвойсов) по мере их поступления и визуализировать их в удобном интерфейсе.

Вы будете использовать технологии FastAPI, Apache Kafka, Apache Spark, MongoDB и Streamlit - инструменты, с которыми вы уже знакомы из других курсов. Перед началом настоятельно рекомендуем пройти базовые курсы по этим технологиям, а также курс по основам Docker, так как проект сильно опирается на Docker-окружение.

Что вас ждет в курсе:

- Введение в проект- Вы разберетесь в архитектуре end-to-end пайплайна и увидите, как строится визуализация данных. Пошагово разберете, как построить проект и на каком этапе использовать те или иные технологии.
- Подготовка данных- Вы загрузите и преобразуете датасет с Kaggle: сначала сохраните его в формате CSV, а затем превратите данные в JSON для дальнейшей работы.
- API на FastAPI- Познакомитесь с общей схемой API, создадите API с FastAPI, настроите его для приема данных и протестируете работу через Postman.
- Apache Kafka и API как Docker-сервисы- Установите Apache Kafka через Docker, настроите топики, напишете API, который будет писать данные в Kafka, и развернете его в Docker-контейнере.
- Стриминг данных через Spark в Kafka- Подготовите контейнер с Apache Spark, подключите его к Kafka и API, настроите обработку данных через Spark Structured Streaming, протестируете пайплайн.
- Хранение данных в MongoDB- Настроите MongoDB и Mongo-Express через Docker, подготовите базу данных и коллекцию для хранения данных, чтобы связать Spark с MongoDB.
- Стриминг данных из Kafka в MongoDB- Освоите работу со Spark Structured Streaming для записи потоковых данных из Kafka в MongoDB в формате вложенных JSON-документов.
- API-клиент на Python- Напишете скрипт-клиент на Python для отправки данных в API в формате JSON и убедитесь, что данные успешно записываются в MongoDB.
- Интерфейс визуализации на Streamlit- Построите интерактивный дашборд для просмотра счетов и товаров клиентов с помощью Streamlit.

Этот проект - отличная возможность объединить знания по API, потоковой обработке данных, работе с Docker и базами данных в единое целое и получить практический опыт создания потоковых приложений в реальных условиях.

Материал на английском языке

Подробнее:
Для просмотра содержимого вам необходимо авторизоваться.

Скачать:
Скрытое содержимое могут видеть только члены группы Премиум.


Скрытый контент для пользователей All-dar.
 

Создайте учетную запись или войдите, чтобы комментировать или скачивать материалы!

У вас должна быть учетная запись, чтобы оставлять комментарии

Зарегистрироваться

Создайте учетную запись. Это просто!

Авторизоваться

У вас уже есть аккаунт? Войдите здесь.

Сверху