DataOps
Big Data

Аналитики просили данные. Мы дали им космодром

Когда аналитики тонут в данных - бизнес не получает инсайтов.
В кейсе рассказываем, как мы выстроили платформу больших данных с нуля: натянули рельсы из Kafka и Airflow, поставили двигатель Spark и разложили всё по полкам в Greenplum с Hadoop. Теперь данные работают, а не просто лежат.

Какие были задачи?

  1. Предоставить аналитикам доступ к данным компании.
  2. Создать масштабируемую инфраструктуру для: сбора данных с различных источников, включая геоданные, последующей обработки и хранения данных.
  3. Интегрировать новую инфраструктуру в существующую IT-инфраструктуру.
  4. Включить инфраструктуру в текущие процессы разработки и CI/CD.

Решение

  1. Проведен сбор требований и анализ источников данных.
  2. Создано техническое задание на разработку нового решения.
  3. Для CI/CD выбраны Jenkins и GitLab.
  4. Реализовано следующее: потоковые данные обрабатываются через Apache Kafka, пакетные данные собираются с помощью Apache Airflow, для ETL-преобразований используется Apache Spark, хранение структурированных данных и витрин данных — через Greenplum, хранение опубликованных наборов данных — через Apache Hadoop.

Команда проекта

Менеджер проекта
3 DataOps инженера
DevOps инженер
Готовы обсудить проект?

Напишите ваш номер телефона или e-mail - мы напишем вам в течение 1 часа в рабочее время.

Свяжитесь со мной здесь
Свяжитесь со мной здесь
❗️Телефон или email не может быть пустым