Аналитики просили данные. Мы дали им космодром
Когда аналитики тонут в данных - бизнес не получает инсайтов.
В кейсе рассказываем, как мы выстроили платформу больших данных с нуля: натянули рельсы из Kafka и Airflow, поставили двигатель Spark и разложили всё по полкам в Greenplum с Hadoop. Теперь данные работают, а не просто лежат.
Какие были задачи?
- Предоставить аналитикам доступ к данным компании.
- Создать масштабируемую инфраструктуру для: сбора данных с различных источников, включая геоданные, последующей обработки и хранения данных.
- Интегрировать новую инфраструктуру в существующую IT-инфраструктуру.
- Включить инфраструктуру в текущие процессы разработки и CI/CD.
Решение
- Проведен сбор требований и анализ источников данных.
- Создано техническое задание на разработку нового решения.
- Для CI/CD выбраны Jenkins и GitLab.
- Реализовано следующее: потоковые данные обрабатываются через Apache Kafka, пакетные данные собираются с помощью Apache Airflow, для ETL-преобразований используется Apache Spark, хранение структурированных данных и витрин данных — через Greenplum, хранение опубликованных наборов данных — через Apache Hadoop.
Команда проекта
Менеджер проекта
3 DataOps инженера
DevOps инженер
Упомянутые услуги
Готовы обсудить проект?
Напишите ваш номер телефона или e-mail - мы напишем вам в течение 1 часа в рабочее время.