[udemy] Инжиниринг данных — SSIS/ETL/конвейеры/Python/веб-скрейпинг (2022)

Ho Lee Fuk

Сенсей
🛡 МОДЕРАТОР 🛡
Регистрация
22 Февраль 2018
Сообщения
11.084
Автор: udemy

Название: Инжиниринг данных — SSIS/ETL/конвейеры/Python/веб-скрейпинг (2022)

1660509576893-png.99252


Описание:

Data Engineering – SSIS/ETL/Pipelines/Python/Web Scraping

udemy

Инженер данных — это тот, кто создает конвейеры ETL для больших данных и позволяет собирать огромные объемы данных и преобразовывать их в идеи. Они сосредоточены на производственной готовности данных и таких вещах, как форматы, отказоустойчивость, масштабирование и безопасность.

Службы интеграции SQL Server — это компонент программного обеспечения базы данных Microsoft SQL Server, который можно использовать для выполнения широкого круга задач переноса данных. SSIS — это платформа для интеграции данных и приложений для рабочих процессов. Он включает в себя инструмент хранилища данных, используемый для извлечения, преобразования и загрузки данных.

ETL, что означает извлечение, преобразование и загрузка, представляет собой процесс интеграции данных, который объединяет данные из нескольких источников данных в единое согласованное хранилище данных, которое загружается в хранилище данных или другую целевую систему.

Конвейер ETL — это набор процессов, используемых для перемещения данных из источника или нескольких источников в базу данных, такую как хранилище данных или целевые базы данных.

Служба интеграции SQL Server (SSIS) предоставляет удобный и унифицированный способ чтения данных из разных источников (извлечение), выполнения агрегирования и преобразования (преобразование), а затем интеграции данных (загрузки) для хранения данных и аналитики. Когда вам нужно обработать большой объем данных (гигабайты или терабайты), SSIS становится идеальным подходом для такой рабочей нагрузки.

Веб-скрапинг, веб-сбор или извлечение веб-данных — это парсинг данных, используемый для извлечения данных с веб-сайтов. Программное обеспечение для очистки веб-страниц может напрямую обращаться к всемирной паутине с использованием протокола передачи гипертекста или веб-браузера. Хотя просмотр веб-страниц может выполняться пользователем программного обеспечения вручную, этот термин обычно относится к автоматизированным процессам, реализованным с использованием бота или поискового робота. Это форма копирования, при которой определенные данные собираются и копируются из Интернета, как правило, в центральную локальную базу данных или электронную таблицу для последующего поиска или анализа.

Для кого этот курс:

- Начинающие инженеры данных

Требования

- Приветствуется базовое знание Python
- Рекомендуется базовое знание концепций баз данных

Материал на английском языке

Подробнее:
Для просмотра содержимого вам необходимо авторизоваться.

Скачать:
Скрытое содержимое могут видеть только члены группы Премиум.


Скрытый контент для пользователей All-dar.
 

Создайте учетную запись или войдите, чтобы комментировать или скачивать материалы!

У вас должна быть учетная запись, чтобы оставлять комментарии

Зарегистрироваться

Создайте учетную запись. Это просто!

Авторизоваться

У вас уже есть аккаунт? Войдите здесь.

Сверху