Как мы объединили разрозненные данные для удобства аналитиков
Заказчику нужен был доступ к данным из разных источников, поэтому мы разработали масштабируемую инфраструктуру для их сбора, обработки и хранения с учётом геолокации.
Какие были задачи?
- Предоставить аналитикам доступ к данным компании.
- Создать масштабируемую инфраструктуру для: сбора данных с различных источников, включая геоданные, последующей обработки и хранения данных.
- Интегрировать новую инфраструктуру в существующую IT-инфраструктуру.
- Включить инфраструктуру в текущие процессы разработки и CI/CD.
Решение
- Проведен сбор требований и анализ источников данных.
- Создано техническое задание на разработку нового решения.
- Для CI/CD выбраны Jenkins и GitLab.
- Реализовано следующее: потоковые данные обрабатываются через Apache Kafka, пакетные данные собираются с помощью Apache Airflow, для ETL-преобразований используется Apache Spark, хранение структурированных данных и витрин данных — через Greenplum, хранение опубликованных наборов данных — через Apache Hadoop.
Команда проекта
Менеджер проекта
3 DataOps инженера
DevOps инженер
Упомянутые услуги
Готовы обсудить проект?
Ответим на заявку в ближайшие 24 часа. А еще мы можем проконсультировать вас по телефону +7 800 555-91-99, электронной почте info@itsumma.ru или в Telegram-чате.