Как мы решали задачу предоставления аналитикам доступа к разрозненным данным компании


Какие были задачи?

У заказчика стояла задача предоставить аналитикам доступ к работе с данными компании. Для ее решения необходимо было создать масштабируемую инфраструктуру для сбора данных с различных источников с учетом геоданных, последующей обработки и хранения. Новая инфраструктура должна была быть интегрирована в существующую IT-инфраструктуру и включена в уже имеющиеся процессы разработки и CI/CD.

Наше решение

После сбора требований и анализа источников данных было создано ТЗ на разработку нового решения. Было решено потоковые данные получать с помощью Apache Kafka, пакетные данные забирать через Apache Airflow, для ETL-преобразований использовать Apache Spark, для хранения структурированных данных и витрин данных использовать Greenplum, для хранения опубликованных наборов данных использовать Apache Hadoop. Для реализации процессов CI/CD были выбраны Jenkins и Gitlab.

Результат

Следующим этапом была реализация ТЗ. Помимо разворачивания платформы ITS DPP и интеграции платформы с необходимыми источниками данных, инженеры ITSumma реализовали некоторые примеры ETL-процессов как образцы для заказчика. Было разработано REST API для интеграции с имеющимся хранилищем данных.

У заказчика своя IT-инфраструктура с особыми требованиями, как по безопасности, так и по работе с сетью. Платформа была развернута на мощностях заказчика с соблюдением всех необходимых требований. Вся инфраструктура была протестирована под разными типами нагрузки для определения максимально допустимых объемов обрабатываемых потоков данных.

Для реализации проекта были использованы модули ETL, MPP DB, MW и Datalake из состава платформы ITS DPP.

Задействованная команда:

Менеджер проекта
3 DataOps инженера
DevOps инженер

Срок внедрения составил 4 месяца.

Остались вопросы или хотите что-то уточнить?

Ответим на заявку в ближайшие 24 часа. А еще мы можем проконсультировать вас по телефону +7 800 555-91-99, электронной почте info@itsumma.ru или в Telegram-чате.

Свяжитесь со мной здесь
Свяжитесь со мной здесь
❗️Имя не может быть пустым
❗️Телефон не может быть пустым
❗️Email не может быть пустым