ITS Data Processing Platform

Платформа для анализа, хранения и обработки больших данных на базе ПО с открытым исходным кодом.

М видео
s7
habr
Tilda publishing
Tass
Action
Askona
FixPrice
Тотальный Диктант
UTair

ITS DPP

Позволяет осуществлять сбор, обработку и хранение всех данных предприятия в рамках единой платформы, построенной на базе ПО с открытым исходным кодом:
hadoop
kafka
greenplum
spark
clickhouse
airflow

ITS DPP будет полезна, если необходимо:

Построить систему хранения, обработки
и анализа данных с нуля
Создать витрины данных, организовать процессы
обработки данных, реорганизовать хранение данных
Быстро развернуть инфраструктуру для хранения
и анализа данных
Сократить издержки путём оптимизации инфраструктуры и избегая при этом ресурсных потерь.

Что с её помощью можно сделать

Создать Data Lake или Data Warehouse для хранения структурированных и неструктурированных данных
Организовать контроль и доставку кода заданий для обработчиков данных
Настроить дашборды с разными уровнями доступа для различных подразделений
Организовать сбор данных из разнородных источников в единое хранилище
Настроить ETL/ELT преобразования
Настроить потоковую и пакетную обработку данных
Организовать проверку качества данных

Преимущества нашего решения

Используем подхода IaC, что обеспечивает оперативное внедрение и установку, включая развёртывание в закрытом контуре.
Платформа полностью сконфигурирована и готова к работе сразу после установки. Связи между компонентами модулей протестированы и отлажены.
В составе платформы CI/CD-пайплайны, обеспечивающие бесшовную доставку кода.
Платформа построена на базе opensource-компонентов, прошедших тщательное тестирование.
В состав уже включены все необходимые коннекторы нашей разработки.
Отечественная разработка
ITS DPP внесена в Единый реестр российских программ для ЭВМ под номером № 19542

Состав платформы обработки данных ITS DPP

Назначение модулей
Apache Airflow
ITS DPP.MW — реализация процессов сбора и пакетной обработки данных.
Apache Kafka
Apache Spark
ITS DPP.ETL — преобразования, пакетная и потоковая обработка, сбор и хранение необработанных данных.
Greenplum
ITS DPP.MPP DB — хранение структурированных данных в кластере Greenplum.
Apache Hadoop
ITS DPP.DataLake — реализация хранилища для больших объемов неструктурированных данных.
Apache Superset Redash
ITS DPP.Analytics DB — хранение структурированных данных в кластере ClickHouse, формирование витрин данных.
Prometheus
ITS DPP.DSM — мониторинг и управление компонентами платформы. Поставляется бесплатно с любым набором модулей.

Модули платформы ITS DPP

Полная конфигурация платформы включает следующие модули:
    ITS DPP.ETL
    ITS DPP.MPP DB
    ITS DPP.Analytics DB
    ITS DPP.MW
    ITS DPP.DataLake
    ITS DPP.DSM

Эта конфигурация* адресована для корпоративных заказчиков, позволит решить задачи обработки и анализа данных «под ключ».

Она предоставляет возможности пакетной и потоковой обработки, хранения структурированных и неструктурированных данных и построения витрин данных и аналитики.

* При необходимости вы можете приобрести только отдельные модули.
Облегчённая конфигурация состоит из следующих модулей:
    ITS DPP.MW (Managed Workflows)
    ITS DPP.Analytics DB

Эта версия ориентирована на пакетную обработку и небольшие объемы данных. Предоставляет все необходимые базовые средства для работы с большими данными и потребляет меньше ресурсов по сравнению с полной конфигурацией.

ITS DPP.ETL — на базе Apache Kafka, Apache Spark

Назначение:

Реализация полной цепочки ETL- преобразований в рамках потоковой обработки данных, а также предоставление инструментов сбора данных.

Решаемые задачи:
  • Потоковая передача данных в режиме реального времени;
  • Организация корпоративной шины интерактивного обмена данными;
  • (Data pipeline) между распределенными приложениями;
  • Мониторинг и управление данными (рабочими процессами);
  • Хранение неструктурированных данных.

ITS DPP.MPP DB — на базе Greenplum

Назначение:

Хранение структурированных данных в кластере Greenplum, который обеспечивает отказоустойчивость и масштабируемость.

Решаемые задачи:
  • Обеспечение отказоустойчивого и безопасного хранения больших объемов структурированных данных;
  • Обработка больших объёмов (в сотни терабайт) структурированных и слабоструктурированных данных в режиме реального времени (для систем предиктивной аналитики, озёр и хранилищ данных, организации регулярной отчетности).

ITS DPP.Analytics DB — на базе Clickhouse и Superset/Redash

Назначение:

Хранение структурированных данных с возможностью формировать витрины данных. При необходимости в состав модуля может быть включен бесплатный Add-On c системами аналитики SuperSet/Redash.

Решаемые задачи:
  • Анализ данных;
  • Хранение и сортировка данных;
  • Исследование, нарезка и визуализация данных;
  • Генерация аналитических отчетов по большим данным в режиме реального времени.

ITS DPP.DataLake — на базе Apache Hadoop

Назначение:

Реализация хранилища для больших объемов неструктурированных данных, в котором кластерная структура обеспечивает отказоустойчивость и масштабируемость.

Решаемые задачи:
  • Хранение и обработка больших объемов неструктурированных данных;
  • Обработка и хранение данных любых типов и форматов;
  • Работа с данными в хранилище при помощи SQL-запросов.

ITS DPP.DSM — Data Service Manager

Назначение:

Мониторинг и управление компонентами платформы. Поставляется бесплатно с любым набором модулей.

Решаемые задачи:
  • Установка и настройка модулей платформы ITS DPP;
  • Проектирование и управление ролями пользователей;
  • Инвентаризация подключенных компонентов;
  • Мониторинг состояния подключенных модулей;
  • Настройка уведомлений на превышение пороговых значений метриками платформы.

ITS DPP.MW — на базе Apache Airflow

Назначение:

Реализация полной цепочки ETL- преобразований, включая пакетную и потоковую обработку данных, а также средства сбора данных

Решаемые задачи:
  • Графический интерфейс управления задачами;
  • Поддержка DAG;
  • Подключение неограниченного количества источников данных;
  • Работа с данными любых типов и форматов;
  • Подключение большого количества сред выполнения;
  • Возможность масштабирования.

Матрица соответствия зарубежным продуктам

Moдули ITS DPPЗадачиЗарубежное заменяемое решение
ITS DPP.MWELT-оркестратор для пакетной обработки данных.Luigi, Rundeck
ITS DPP.ELTШирина данных. Сбор и потоковая обработка данных.Confluent Kafka, IBM Streams, SAS Event Streams, Processing, Azure Stream Analytics, TIBCO, Streaming, Cloudera DataFlow
ITS DPP.MPP DBOLAP / RAC / Exadata (DWH)AWS Redshift, GCE BigQuery
ITS DPP.Analytics DBСУБД для анализа временных рядов.
Витрины данных.
In-memory RDBSM.
Amazon Timestream, HCL Informix, InfluxDB, Enterprise, Kdb+, Taradata SAP HANA, Cassandra, Scylla
ITS DPP.DataLakeХранение документов, JSON.
Экосистема Hadoop.
Реляционная облачная СУБД.
MongoDB, DynamoDB, Продукты Cloudera / Hortonworks, Azure SQL, Google Big Query
ITS DPP.DSMПанель управления платформой обработки данных.Продукты Cloudera / Hortonworks
Лицензирование

Платформа и отдельные модули продаются как лицензия на срок 1 или 3 года. Техническую поддержку можно приобрести на 1 или 3 года.

Лицензия и техническая поддержка приобретаются на каждое физическое ядро сервера или виртуальной машины, на которых развернута платформа или модуль. При первой покупке в состав лицензии включена бесплатная техническая поддержка в течение одного года с момента приобретения лицензии.

Стоимость рассчитывается индивидуально под каждого заказчика, в зависимости от задач и объема данных.

Приобрести лицензию можно через наших партнеров, для получения контактов - обращаться в отдел продаж ITSumma.

Жизненный цикл версии модуля

lifecyrcle
Активная разработкаПоддержкаОкончание поддержки

Документация по работе платформы

Диагностика и устранение сбоев в работе компонентов платформы

Диагностика и устранение неэффективностей в работе компонентов платформы

Осуществление консультаций по работе платформы

Доступ к минорным обновлениям

Помощь в установке обновлений

Состав и SLA технической поддержки

Состав

  • Выявление и устранение сбоев в работе компонентов платформы.
  • Диагностика и внесение изменений для эффективной работы компонентов платформы.
  • Поддержка при внедрении обновлений.
  • Консультирование пользователей по вопросам экспулатации/использования компонентов платформы.
  • Поддержка при разворачивании платформы в различных окружениях, в т.ч. нестандартных.
  • Консультирование по подготовке инфрастуктуры для развёртывания платформы.
  • Разработка новой функциональности по запросу.
  • Выявление и утранение сбоев в работе компонентов платформы.

SLA

Формат гарантийной поддержки8*5
Каналы коммуникацийЭлектронная почта, telegram-чат, тикет-система
SLA на реагирование1 час
Восстановление работы системы в случае полной потери функциональности2 рабочих дня
Восстановление работы системы в случае частичной потери функциональности5 рабочих дней
Другие вопросы по использованию продукта10 рабочих дней

DataOps-сопровождение

В рамках DataOps-сопровождения от ITSumma вы сможете
решить следующие задачи:

  • Подключить источники данных к платформе.
  • Разработать ETL-обработчики.
  • Построить хранилища структурированных (Data Warehouse) и неструктурированных данных (Data Lake) с их последующим сопровождением.
  • Настроить инструменты аналитики и визуализации данных, BI-системы.
  • Настроить, автоматизировать и масштабировать обработку потоков данных.
  • Настроить CI/CD-конвейеры и внедрить DevOps-процессы для бесперебойной работы серверов и инфраструктуры.
  • Анализировать работу платформы и разработать сценарии её оптимизации.

Технические требования

Для разворачивания в высокодоступной редакции необходимо не менее 9 серверов суммарно с 80 ядрами CPU, 396 Гб оперативной памяти и достаточным объемом хранилища данных.

Варианты развертывания
  • On-premise
  • Виртуальные сервера
  • Air-gapped environment
  • Облачные провайдеры (Yandex Cloud, Cloud, VK Cloud)
Операционные системы
  • Ubuntu
  • CentOS
  • Astra Linux
  • РЕД ОС
Совместимые платформы
  • Deckhouse
  • OpenShift

Документация

Руководство по эксплуатации
Скачать документ
Инструкция по установке
Скачать документ

Реализованные проекты

Проект № 1:

Увеличение производительности системы сбора данных с учетом GPS и аналитики. Findmykids.org

Задачи:

  • Создание инфраструктуры для приема, хранения, обработки и анализа данных;
  • Наличие в системе поддержки postgis;
  • Возможность адаптации текущих пайплайнов обработки данных;
  • Возможность быстрого масштабирования под потребности проекта;
  • Создание CI/CD пайплайнов для приложений, работающих в инфраструктуре.

Решение:

Использовался следующий набор модулей

  • ITS DPP.ETL
  • ITS DPP.MPP DB
  • ITS DPP.Analytics DB

Дополнительные работы

  • Интеграция платформы в текущую инфраструктуру клиента
  • Адаптация текущих ETL процессов
Проект № 2:

Работа с большими данными с учетом геоданных. Mos.ru

Задачи:

  • Создание инфраструктуры для приема, хранения, обработки и анализа данных;
  • Наличие в системе поддержки postgis;
  • Возможность адаптации текущих пайплайнов обработки данных;
  • Возможность быстрого масштабирования под потребности проекта;
  • Создание CI/CD пайплайнов для приложений, работающих в инфраструктуре.

Решение:

Использовался следующий набор модулей

  • ITS DPP.ETL
  • ITS DPP.MPP DB
  • ITS DPP.Analytics DB

Дополнительные работы

  • Интеграция платформы в текущую инфраструктуру клиента
  • Адаптация текущих ETL процессов

Примеры внедрения

Проект № 3:

Старт MVP для обработки и хранения данных IoT. Обезличен

Задачи:

  • Создание инфраструктуры для приема, хранения, обработки данных и анализа данных с IoT-устройств;
  • Наличие тестовых примеров пайплайнов для обработки данных;
  • Создание CI/CD-пайплайнов для приложений, работающих в инфраструктуре.

Решение:

Использовался следующий набор модулей

  • ITS DPP.ETL
  • ITS DPP.MPP DB
  • ITS DPP.Analytics DB

Дополнительные работы

  • Интеграция платформы в текущую инфраструктуру клиента
  • Адаптация текущих ETL процессов
Проект № 4:

Обработка и хранение данных с IoT. Обезличен

Задачи:

  • Создание инфраструктуры для приема, хранения, обработки данных и анализа данных с IoT-устройств;
  • Создание пайплайнов для обработки данных;
  • Внедрение IaC;
  • Создание CI/CD пайплайнов для приложений, работающих в инфраструктуре.

Решение:

Использовался следующий набор модулей

  • ITS DPP.ETL
  • ITS DPP.MPP DB

Дополнительные работы

  • Интеграция платформы в текущую инфраструктуру клиента
  • Адаптация текущих ETL процессов
Проект № 5:

Цифровизация бизнес-процессов — внедрение средств аналитики. Обезличен

Задачи:

  • Создание инфраструктуры для бизнес-аналитики;
  • Подключение источников данных к инструментам бизнес-аналитики;
  • Формирование запросов и дашбордов.

Решение:

Использовался следующий набор модулей

  • ITS DPP.Analytics DB

Дополнительные работы

  • Интеграция платформы в текущую инфраструктуру клиента
  • Адаптация текущих ETL процессов

Технологические партнеры

selectel
sbercloud
inftech
deckhouse
yandex-cloud
Остались вопросы или хотите что-то уточнить?

Ответим на заявку в ближайшие 24 часа. А еще мы можем проконсультировать вас по телефону +7 800 555-91-99, электронной почте info@itsumma.ru или в Telegram-чате.

Свяжитесь со мной здесь
Свяжитесь со мной здесь
❗️Имя не может быть пустым
❗️Телефон не может быть пустым
❗️Email не может быть пустым