Компания «ДатаКаталог» (входит в Группу Arenadata) протестировала коннектор, обеспечивающий совместимость продукта Arenadata Catalog (ADC) и сервиса Apache Impala, являющегося частью корпоративного дистрибутива Arenadata Hadoop (ADH)1. Коннектор позволяет импортировать описания объектов Impala в каталог, выполнять профилирование данных и настраивать пользовательские проверки качества данных в Impala. Это не первый модуль, обеспечивающий интеграцию с экосистемой Hadoop, ранее заказчикам был представлен коннектор для сервиса Hive.
Ряд текущих и новых заказчиков Arenadata воспользовался возможностью ускорения SQL-обработки и анализа данных за счёт использования Impala вместо Hive в озёрах данных. К сожалению, отсутствие поддержки этого сервиса в Arenadata Catalog сдерживало часть из них от переключения нагрузки на Impala в промышленном контуре. Оперативная разработка и поставка коннектора метаданных обеспечила неразрывность отслеживания метаданных в системах и устранила это препятствие.
Технологический ландшафт хранилищ данных российских предприятий отличается высокой сложностью и фрагментарностью. В прошлом для построения КХД широко использовались корпоративные продукты зарубежных вендоров, сейчас развиваются и внедряются решения на базе открытого программного обеспечения. В долгосрочной перспективе программное обеспечение отечественного производства будет занимать преимущественные позиции. Именно по этой причине Arenadata Catalog регулярно расширяет список коннекторов к популярным источникам данных и платформам независимо от их типа, разрабатывая их самостоятельно. Мы стремимся, чтобы Arenadata Catalog стал стандартом де-факто для всех потребителей, строящих хранилища на базе Hadoop, и упростил миграцию на российские решения. Коннектор к сервису Impala из пакета ADH — это очередной шаг в этом направлении.