Наш коннектор для связи Apache Spark с БД Greenplum стал быстрее в 20 раз

Решение теперь поддерживает Apache Spark версии 3.0 и выше. По сравнению с предыдущей версией производительность выросла в 10-20 раз — с 1 до 10-20 Мбит/с. Это произошло благодаря применению метода zero-copy — коннектор перестал использовать копирование внутренних кешей двоичного представления строк.


«Для коннектора была проведена общая оптимизация, которая сокращает задержку между батчами и микробатчами в Spark. В основном скорость была увеличена в 10-20 раз за счет изменения механизма копирования буфера — теперь вместо копирования делается передача указателя на него. Такого рода технические решения позволили значительно увеличить производительность» — Алексей Понаморевский, ведущий разработчик проекта Spark-Greenplum-Connector.

Spark-greenplum-connector предназначен для замены встроенного в Apache Spark коннектора. Благодаря ему, дата-инженеры смогут увеличить скорость чтения и записи в базу данных и быстро масштабировать количество подключаемых и обрабатываемых источников.

Коннектор применим везде, где требуется потоковое получение больших объемов данных. В тех отраслях, где есть телеметрия или постоянный поток событий: финансы, электронная коммерция, телеком, медиа, производство и промышленность, реклама, транспорт и логистика и т.д.

Дуглас Эдвардс
Мне повезёт: Исповедь сотрудника Google №59
1 690 ₽
Бестселлер
Новинка
Готовы обсудить проект?

Ответим на заявку в ближайшие 24 часа. А еще мы можем проконсультировать вас по телефону +7 800 555-91-99, электронной почте info@itsumma.ru или в Telegram-чате.

Свяжитесь со мной здесь
Свяжитесь со мной здесь
❗️Имя не может быть пустым
❗️Телефон не может быть пустым
❗️Email не может быть пустым