Компания «ДатаКаталог» (входит в#nbsp;Группу Arenadata) протестировала коннектор, обеспечивающий совместимость продукта Arenadata Catalog (ADC) и#nbsp;сервиса Apache Impala, являющегося частью корпоративного дистрибутива Arenadata Hadoop (ADH)1. Коннектор позволяет импортировать описания объектов Impala в#nbsp;каталог, выполнять профилирование данных и#nbsp;настраивать пользовательские проверки качества данных в#nbsp;Impala. Это не#nbsp;первый модуль, обеспечивающий интеграцию с#nbsp;экосистемой Hadoop, ранее заказчикам был представлен коннектор для сервиса Hive.
Ряд текущих и#nbsp;новых заказчиков Arenadata воспользовался возможностью ускорения SQL-обработки и#nbsp;анализа данных за#nbsp;счёт использования Impala вместо Hive в#nbsp;озёрах данных. К#nbsp;сожалению, отсутствие поддержки этого сервиса в#nbsp;Arenadata Catalog сдерживало часть из#nbsp;них от#nbsp;переключения нагрузки на#nbsp;Impala в#nbsp;промышленном контуре. Оперативная разработка и#nbsp;поставка коннектора метаданных обеспечила неразрывность отслеживания метаданных в#nbsp;системах и#nbsp;устранила это препятствие.
Технологический ландшафт хранилищ данных российских предприятий отличается высокой сложностью и#nbsp;фрагментарностью. В#nbsp;прошлом для построения КХД широко использовались корпоративные продукты зарубежных вендоров, сейчас развиваются и#nbsp;внедряются решения на#nbsp;базе открытого программного обеспечения. В#nbsp;долгосрочной перспективе программное обеспечение отечественного производства будет занимать преимущественные позиции. Именно по#nbsp;этой причине Arenadata Catalog регулярно расширяет список коннекторов к#nbsp;популярным источникам данных и#nbsp;платформам независимо от#nbsp;их#nbsp;типа, разрабатывая их#nbsp;самостоятельно. Мы#nbsp;стремимся, чтобы Arenadata Catalog стал стандартом де-факто для всех потребителей, строящих хранилища на#nbsp;базе Hadoop, и#nbsp;упростил миграцию на#nbsp;российские решения. Коннектор к#nbsp;сервису Impala из#nbsp;пакета ADH#nbsp;— это очередной шаг в#nbsp;этом направлении.