Дом аудио Аналитика Hadoop: не так просто для разных источников данных

Аналитика Hadoop: не так просто для разных источников данных

Оглавление:

Anonim

Hadoop - это отличное место для разгрузки данных для обработки аналитики или для моделирования больших объемов единого источника данных, что невозможно в существующих системах. Однако, поскольку компании переносят данные из многих источников в Hadoop, возникает растущий спрос на анализ данных из разных источников, который может быть чрезвычайно трудным для достижения. Этот пост является первым в серии из трех частей, в которой объясняются проблемы, с которыми сталкиваются организации, когда они пытаются проанализировать различные источники данных и типы в Hadoop, и способы решения этих проблем. Сегодняшняя статья посвящена проблемам, возникающим при объединении нескольких внутренних источников. В следующих двух статьях объясняется, почему эти проблемы усложняются по мере добавления внешних источников данных и как новые подходы помогают их решать.

Данные из разных источников трудно соединить и сопоставить

Данные из разных источников имеют разные структуры, которые затрудняют соединение и сопоставление типов данных вместе, даже данных из внутренних источников. Объединение данных может быть особенно сложным, если клиенты имеют несколько номеров счетов или организация приобрела или объединилась с другими компаниями. За последние несколько лет некоторые организации пытались использовать приложения для обнаружения данных или приложения для анализа данных для анализа данных из нескольких источников, хранящихся в Hadoop. Этот подход проблематичен, потому что он требует много догадок: пользователи должны решить, какие внешние ключи использовать для соединения с различными источниками данных, и делать предположения при создании наложений модели данных. Эти догадки трудно проверить и часто неверны при применении в масштабе, что приводит к ошибочному анализу данных и недоверию к источникам.

Эксперты Hadoop пытаются объединить данные

Поэтому организации, которые хотят анализировать данные в разных источниках данных, прибегают к найму экспертов Hadoop для создания пользовательских, специфичных для источника сценариев для объединения наборов данных. Эти эксперты Hadoop обычно не являются экспертами по интеграции данных или разрешению сущностей, но они делают все возможное, чтобы удовлетворить насущные потребности организации. Эти эксперты обычно используют Pig или Java для написания жестких и быстрых правил, которые определяют, как объединять структурированные данные из определенных источников, например, сопоставлять записи на основе номера счета. После написания сценария для двух источников, если требуется добавить третий источник, необходимо выбросить первый сценарий и новый сценарий, предназначенный для объединения трех конкретных источников. То же самое происходит, если добавляется другой источник и так далее. Этот подход не только неэффективен, но он также дает сбой при применении в масштабе, плохо обрабатывает крайние случаи, может привести к большому количеству дублированных записей и часто объединяет множество записей, которые не следует объединять.

Аналитика Hadoop: не так просто для разных источников данных