Дом тенденции 6 больших мифов об управлении большими данными

6 больших мифов об управлении большими данными

Оглавление:

Anonim

Еще в мае 2014 года Forrester Research выпустила два отчета, в которых были сделаны определенные выводы о шумихе вокруг больших данных. Исследовательская фирма опросила более 250 руководителей отдела маркетинга и развития бизнеса. По словам авторов доклада, риторика больших данных находится на рекордно высоком уровне, и поставщики технологий рекламируют продукты с невероятными требованиями.


Gartner соглашается с Forrester Research; существенный обман окружает большие данные. В отчете за сентябрь 2014 года Gartner развенчивает пять самых больших мифов о данных, и аналитики Gartner высказывают свое мнение о том, что неправильно понимают в отношении больших данных и их манипулирования. Так, каковы самые большие мифы больших данных? Давайте посмотрим.

Миф: все опережают нас в принятии больших данных.

Gartner говорит, что интерес к большим данным находится на рекордно высоком уровне. Несмотря на это, 13 процентов опрошенных имеют работающие системы. Причина: большинству компаний еще предстоит выяснить, как извлечь какую-либо выгоду из больших хранилищ данных. Здесь опрос Gartner более оптимистичен, чем отчет Forrester, который показал, что только 9 процентов участников опроса заявили, что планируют внедрить технологии больших данных в течение следующего года. (Большие данные могут предложить многое. Узнайте больше из 5 реальных проблем, которые могут решить большие данные.)

Миф: у нас так много данных; нам не нужно беспокоиться о каждом маленьком недостатке данных.

Gartner беспокоится о слабости, которую мы, люди, имеем: «У нас так много, мало того, что плохо, не имеет значения». Тед Фридман, вице-президент и выдающийся аналитик Gartner, считает, что это неправильный взгляд на ситуацию.


«В действительности, хотя каждый отдельный недостаток оказывает гораздо меньшее влияние на весь набор данных, чем при меньшем количестве данных, существует больше недостатков, чем раньше, потому что данных больше», - сказал Фридман. «Таким образом, общее влияние некачественных данных на весь набор данных остается неизменным».


Фридман добавляет еще одну причину для беспокойства. Сбор больших данных часто включает в себя данные извне, которые поэтому имеют неизвестную структуру и происхождение. Это увеличивает вероятность ошибок.

Миф: технология больших данных избавит от необходимости интеграции данных.

Существует две ключевые стратегии анализа данных, которые можно применять к большим данным: «схема при записи» или «схема при чтении». До недавнего времени схема записи была единственным используемым методом. Схема на чтение является текущим увлечением в управлении базой данных. В отличие от схемы при записи, которая требует структурированного формата, данные загружаются в базы данных схемы при чтении в необработанном формате. Затем разработчики - используя платформы неструктурированных баз данных, такие как Hadoop, - преобразуют разрозненные данные в удобный для использования формат. Схема на чтение имеет очевидные преимущества, но, как отмечает Gartner, интеграция данных должна произойти в какой-то момент.

Миф: Использование хранилища данных для расширенной аналитики бессмысленно.

Трата времени на создание хранилища данных кажется бессмысленной многим информационным менеджерам, особенно когда вновь собранные данные отличаются от таковых в хранилище данных. Однако Gartner снова предупреждает, что даже продвинутая аналитика данных будет использовать хранилища данных и новые данные, а это значит, что интеграторы данных должны:

  • Уточните новые типы данных, чтобы сделать их пригодными для анализа
  • Решите, какие данные актуальны и какой уровень качества данных необходим
  • Определить, как агрегировать данные
  • Поймите, что уточнение данных может происходить не в хранилище данных, а в других местах.

Миф: озера данных заменит хранилище данных.

Озера данных являются хранилищами разнородных данных, в отличие от хранилищ данных, где данные представлены в структурированном формате. Создание озера данных требует небольших предварительных усилий (не нужно форматировать данные) по сравнению с хранилищами данных, поэтому озера данных представляют интерес.


Gartner подчеркивает, что наличие данных - это не главное - возможность манипулировать собранными данными для принятия обоснованных решений - это главное. Более того, использование (несколько недоказанных) озер данных для облегчения принятия решений проблематично.


«Хранилища данных уже имеют возможности для поддержки широкого круга пользователей во всей организации», - сказал Ник Хойдекер, директор по исследованиям в Gartner. «Лидерам по управлению информацией не нужно ждать, когда озера данных наверстают упущенное». (Подробнее о внедрении больших данных читайте в 7 томах, которые вы должны знать о больших данных до их принятия.)

Большие данные работают - новые методы манипулирования данными не могут

Причина, по которой Гартнер сказал, что «большие мифы о данных» вместо «мифов о больших данных» становится понятной после прочтения отчета. Gartner не боится больших данных. Gartner с подозрением относится к тем, кто считает, что новые методы манипулирования большими данными готовы к «прайм-тайму».

6 больших мифов об управлении большими данными