Статьи Arenadata Catalog

Arenadata Catalog упрощает построение Data lineage для Greenplum PXF

Компания «ДатаКаталог» обновила коннектор к СУБД Arenadata DB с поддержкой фреймворка PXF (Pluggable Extension Framework) для интеграции метаданных в каталог данных Arenadata Catalog. Он позволяет строить автоматический Data lineage с учётом физического расположения данных в различных системах, интегрированных через PXF в единое хранилище. Новый коннектор включен в дистрибутив Arenadata Catalog начиная с релиза v 0.4.2.
Все больше организаций выбирают MPP СУБД Arenadata DB на базе Greenplum в качестве ядра для построения корпоративного хранилища данных. Действительно, эти системы обладают множеством неоспоримых преимуществ, среди которых горизонтальная масштабируемость, нативная поддержка SQL, интеллектуальный автоматический шардинг данных по нодам и возможность бесшовной интеграции в Greenplum данных, физически хранящихся в других системах. Этот функционал обеспечивается благодаря фреймворку PXF, который предоставляет Greenplum в роли слоя виртуализации хранения данных.
PXF (Pluggable Extension Framework) — это мощный инструмент с открытым исходным кодом, который позволяет интегрировать данные из различных источников в корпоративное хранилище данных, построенное на Greenplum. Когда существует несколько связанных наборов данных во внешних системах, часто более эффективным является выполнение удаленного запроса над набором данных и возврат только результатов, вместо того, чтобы тратить время и ресурсы на выполнение дорогостоящей операции полной загрузки данных в Greenplum. PXF сопоставляет таблицу Greenplum с внешним источником данных, не требуя физической загрузки наборов данных непосредственно в Greenplum, обеспечивая параллельный высокопроизводительный доступ к таблицам PostgreSQL, MySQL, MSSQL и многим другим системам.
Хотя использование PXF обеспечивает явные преимущества, оно также усложняет задачи по поддержанию процессов управления данными на должном уровне и документированию data lineage.
Data lineage — это процесс отслеживания, документирования и визуализации потоков данных, который обеспечивает ясное понимание того, откуда данные появились, как они изменились и каков их конечный пункт назначения в рамках конвейера данных.


  • Почему это важно? Построение Data Lineage — это критически важный аспект управления данными. Data Lineage позволяет организациям проследить путь данных от источника до конечного потребителя. Благодаря разбору данных PXF в Arenadata Catalog можно получить более полное представление о том, как данные перемещаются и трансформируются между разными системами, начиная от источника и до конечной витрины или дашборда.

  • Полная видимость: можно наглядно видеть, откуда берутся данные и как они используются в разных частях вашей организации. Больше не придется проводить самостоятельный анализ для определения и актуализации данных о происхождении. Arenadata Catalog и коннектор к Greenplum с поддержкой PXF сделают это автоматически.

  • Оптимизация процессов: Анализ Data Lineage поможет выявить узкие места в вашей системе обработки данных и улучшить производительность. Разбор Data Lineage с использованием визуального представления не составит труда даже для начинающего дата-инженера.

  • Соблюдение нормативов: Построение полного отчета о Data Lineage поможет демонстрировать соблюдение нормативов и стандартов в области данных.

  • Экономическая эффективность: Благодаря использованию новых возможностей вы сможете значительно уменьшить время, затрачиваемое на выявление ошибок в процессах трансформации данных, а также на разработку и подготовку витрин данных. Это позволит сократить Time to Data и снизить затраты на поддержание корпоративного хранилища данных, что улучшит экономическую эффективность вашей деятельности.
Как это работает? Функционал разбора данных PXF в Arenadata Catalog автоматически отслеживает перемещение данных через PXF и создает связи между таблицами источника и приемника назначения. Это позволяет строить детальные графики Data Lineage с минимальными усилиями. Необходимо лишь зарегистрировать источники данных Greenplum в каталоге данных Arenadata Catalog, запустить процесс профилирования загрузки происхождения данных и дождаться автоматического построения Data Lineage.
С добавлением функционала разбора потоков PXF, Arenadata Catalog становится еще более мощным инструментом для управления данными любого масштаба. Не упустите возможность улучшить прозрачность и эффективность вашего корпоративного хранилища данных.
Более подробную информацию о фреймворке PXF можно получить на странице.
Запросить демонстрацию функционала каталога данных Arenadata Catalog с обновленным коннектором Greenplum PXF можно, заполнив форму обратной связи на сайте.