Как мы объединили разрозненные данные для удобства аналитиков

Заказчику нужен был доступ к данным из разных источников, поэтому мы разработали масштабируемую инфраструктуру для их сбора, обработки и хранения с учётом геолокации.

Какие были задачи?

Предоставить аналитикам доступ к данным компании.
Создать масштабируемую инфраструктуру для: сбора данных с различных источников, включая геоданные, последующей обработки и хранения данных.
Интегрировать новую инфраструктуру в существующую IT-инфраструктуру.
Включить инфраструктуру в текущие процессы разработки и CI/CD.

Решение

Проведен сбор требований и анализ источников данных.
Создано техническое задание на разработку нового решения.
Для CI/CD выбраны Jenkins и GitLab.
Реализовано следующее: потоковые данные обрабатываются через Apache Kafka, пакетные данные собираются с помощью Apache Airflow, для ETL-преобразований используется Apache Spark, хранение структурированных данных и витрин данных — через Greenplum, хранение опубликованных наборов данных — через Apache Hadoop.

Команда проекта

Менеджер проекта

3 DataOps инженера

DevOps инженер

Упомянутые услуги

ITS Data Processing Platform

Платформа для анализа, хранения и обработки больших данных на базе ПО с открытым исходным кодом.

DataOps-сопровождение

Круглосуточная поддержка IT-инфраструктуры на всем цикле обработки данных: ETL/ELT процессы, хранилища данных, витрины данных, инструменты CI/CD.

Инфраструктура под ключ

Создаем отказоустойчивые и масштабируемые инфраструктуры, ориентированные на высокие нагрузки. Внедряем DevOps инструменты и практики для эффективного решения задач бизнеса.

Готовы обсудить проект?

Ответим на заявку в ближайшие 24 часа. А еще мы можем проконсультировать вас по телефону +7 800 555-91-99, электронной почте info@itsumma.ru или в Telegram-чате.