ITS DPP — платформа хранения и обработки больших данных на базе Apache Spark, Apache Hadoop, Apache Kafka, Greenplum.
Связаться с намиЭто любая внешняя информация, поступающая в платформу для дальнейшего хранения и обработки. Данные с внешних источников агрегируются на шину данных Apache Kafka. Также для сбора данных может использоваться Apache NiFi.
Подготовка данных к размещению в хранилище и приведение их к виду более удобному для последующего анализа. Также ETL-преобразования позволяют создавать представления данных для конкретных графиков и отчетов. В качестве ETL процессора в платформе используются Apache Spark, Apache Flink или Apache Airflow.
Предназначено для хранения неструктурированной информации поступающей из источников данных. Озеро данных основано на базе кластера Apache Hadoop, который позволяет малозатратно хранить практически неограниченные объемы данных.
Предназначено для хранения структурированных данных, для использования их в аналитике и отчетах. Хранилище основано на базе кластера Pivotal Greenplum, который позволяет горизонтально масштабироваться как для увеличения объема хранимой информации, так и для повышение скорости выполнения запросов к хранилищу.
Проводится аудит текущей инфраструктуры.
Готовится план по внедрению.
Платформа разворачивается в базовой конфигурации.
Подключаются источники данных.
Разрабатываются ETL-преобразования.
Проводится интеграция с потребителями данных.
Платформа запускается в эксплуатацию.