DataOps
Big Data

Как мы объединили разрозненные данные для удобства аналитиков

Заказчику нужен был доступ к данным из разных источников, поэтому мы разработали масштабируемую инфраструктуру для их сбора, обработки и хранения с учётом геолокации.

Какие были задачи?

  1. Предоставить аналитикам доступ к данным компании.
  2. Создать масштабируемую инфраструктуру для: сбора данных с различных источников, включая геоданные, последующей обработки и хранения данных.
  3. Интегрировать новую инфраструктуру в существующую IT-инфраструктуру.
  4. Включить инфраструктуру в текущие процессы разработки и CI/CD.

Решение

  1. Проведен сбор требований и анализ источников данных.
  2. Создано техническое задание на разработку нового решения.
  3. Для CI/CD выбраны Jenkins и GitLab.
  4. Реализовано следующее: потоковые данные обрабатываются через Apache Kafka, пакетные данные собираются с помощью Apache Airflow, для ETL-преобразований используется Apache Spark, хранение структурированных данных и витрин данных — через Greenplum, хранение опубликованных наборов данных — через Apache Hadoop.

Команда проекта

Менеджер проекта
3 DataOps инженера
DevOps инженер
Готовы обсудить проект?

Ответим на заявку в ближайшие 24 часа. А еще мы можем проконсультировать вас по телефону +7 800 555-91-99, электронной почте info@itsumma.ru или в Telegram-чате.

Свяжитесь со мной здесь
Свяжитесь со мной здесь
❗️Имя не может быть пустым
❗️Телефон не может быть пустым
❗️Email не может быть пустым