Ho Lee Fuk

Сенсей
🛡 МОДЕРАТОР 🛡
Регистрация
22 Февраль 2018
Сообщения
11.084
Автор: learndataengineering

Название: Contact Tracing с использованием Elasticsearch (2025)

1751194108565-png.162343


Описание:

Contact Tracing with Elasticsearch

learndataengineering

В этом увлекательном инженерном проекте вы научитесь отслеживать перемещения пользователей по их сканированиям с телефона. Цель проекта - использовать Elasticsearch как поисковую систему для анализа набора данных, в котором 100,000 пользователей посещают магазины и делают 1,000,000 сканирований.

Вы создадите собственный набор данных на Python и Pandas, используя открытый датасет магазинов Сан-Франциско, содержащий более 140,000 магазинов с их названиями и координатами. Из этого датасета вы выберете 10,000 магазинов и создадите 100,000 вымышленных пользователей, которые совершат в среднем по 10 сканирований каждый. После загрузки данных в Elasticsearch вы создадите пользовательский интерфейс на Streamlit для визуализации данных.

Интерфейс вашего приложения включает:

- Поиск по названию магазина
- Поиск по ZIP-коду для фильтрации магазинов по районам
- Поиск по идентификатору бизнеса для анализа посещений
- Поиск и отслеживание по Device ID, чтобы видеть, где побывал конкретный пользователь

В процессе работы над проектом вы научитесь:

- Преобразовывать данные и загружать их в формате parquet в Elasticsearch
- Работать с Kibana для управления индексами и поиска документов
- Создавать интерактивный интерфейс на Streamlit с элементами управления, картами Folium и таблицами
- Настраивать страницы и выполнять запросы к Elasticsearch

Программа курса

- Подготовка датасета Сан-Франциско с 10,000 магазинами
- Генерация 100,000 вымышленных пользователей
- Слияние данных пользователей с магазинами
- Создание 1,000,000 сканирований приложением
- Подготовка данных для загрузки в Elasticsearch
- Загрузка данных в Elasticsearch
- Разработка Streamlit-приложения: карты, фильтры, таблицы
- Настройка страницы и работа с запросами Elasticsearch

Требования

Перед началом работы рекомендуется пройти курс «Анализ логов в Elasticsearch» для понимания основ работы с Elasticsearch. Также, из-за обширной работы с данными, желательно пройти уроки по Pandas из курса «Python для инженеров данных».

Проект рассчитан на компьютер с 8 ГБ оперативной памяти.

Материал на английском языке

Подробнее:
Для просмотра содержимого вам необходимо авторизоваться.

Скачать:
Скрытое содержимое могут видеть только члены группы Премиум.


Скрытый контент для пользователей All-dar.
 

Создайте учетную запись или войдите, чтобы комментировать или скачивать материалы!

У вас должна быть учетная запись, чтобы оставлять комментарии

Зарегистрироваться

Создайте учетную запись. Это просто!

Авторизоваться

У вас уже есть аккаунт? Войдите здесь.

Сверху