Дом Он-бизнес Большие и малые данные: где реальная ценность?

Большие и малые данные: где реальная ценность?

Оглавление:

Anonim

Большие данные - это общее слово, используемое для обозначения обработки больших объемов данных. Мы все понимаем, что чем больше объем данных, тем сложнее они становятся. Традиционные решения для баз данных часто не могут должным образом управлять большими объемами данных из-за их сложности и размера. Таким образом, управление большими объемами данных и извлечение реальной информации является сложной задачей. Та же концепция «стоимости» применима и к небольшим данным.

Как используются большие данные

Традиционные решения для баз данных, основанные на концепции RDBMS, могут очень хорошо управлять транзакционными данными и широко используются в различных приложениях. Но когда дело доходит до обработки большого набора данных (данные, которые заархивированы и находятся в терабайтах или петабайтах), эти решения для баз данных часто терпят неудачу. Эти наборы данных слишком велики и в большинстве случаев они не вписываются в архитектуру традиционных баз данных. В наши дни большие данные стали экономически эффективным подходом к обработке больших массивов данных. С организационной точки зрения использование больших данных можно разбить на следующие категории, в которых находится реальная ценность больших данных:

  • Аналитическое использование

    Аналитики больших данных выявили много важных скрытых аспектов данных, которые слишком дороги для обработки. Например, если нам нужно проверить интерес учащихся к определенной новой теме, мы можем это сделать, проанализировав записи ежедневной посещаемости и другие социальные и географические факты. Эти факты фиксируются в базе данных. Если мы не можем получить доступ к этим данным эффективным способом, мы не сможем увидеть результаты.

  • Включить новые продукты

    В недавнем прошлом многие новые веб-компании, такие как Facebook, начали использовать большие данные в качестве решения для запуска новых продуктов. Мы все знаем, насколько популярен Facebook - он успешно подготовил высокопроизводительный пользовательский опыт с использованием больших данных.

Где реальная стоимость?

Различные решения для больших данных различаются по подходу, в котором они хранят данные, но, в конце концов, все они хранят данные в виде плоской файловой структуры. В общем, Hadoop состоит из файловой системы и некоторых абстракций данных на уровне операционной системы. Это включает в себя механизм MapReduce и распределенную файловую систему Hadoop (HDFS). Простой кластер Hadoop включает в себя один главный узел и несколько рабочих узлов. Главный узел состоит из следующего:

  • Трекер задач
  • Job Tracker
  • Имя узла
  • Узел данных
Рабочий узел состоит из следующего:
  • Трекер задач
  • Узел данных

Некоторые реализации имеют только узел данных. Узел данных - это фактическая область, в которой находятся данные. HDFS хранит большие файлы (в диапазоне от терабайта до петабайта), распределенные по нескольким машинам. Надежность данных на каждом узле достигается путем репликации данных на всех хостах. Таким образом, данные доступны, даже когда один из узлов не работает. Это помогает в достижении более быстрого ответа на запросы. Эта концепция очень полезна в случае огромных приложений, таких как Facebook. Как пользователь, мы получаем ответ на наш запрос чата, например, почти сразу. Рассмотрим сценарий, когда пользователю приходится долго ждать в чате. Если сообщение и последующий ответ не будут доставлены немедленно, то сколько людей на самом деле будут использовать эти инструменты чата?

Возвращаясь к реализации Facebook, если данные не будут реплицированы по кластерам, будет невозможно получить привлекательную реализацию. Hadoop распределяет данные по компьютерам в более крупном кластере и сохраняет файлы в виде последовательности блоков. Эти блоки имеют одинаковый размер, за исключением последнего блока. Размер блока и коэффициент репликации могут быть настроены в соответствии с потребностями. Файлы в HDFS строго следуют подходу однократной записи и, следовательно, могут быть записаны или отредактированы только одним пользователем за раз. Решения относительно репликации блоков принимаются узлом имени. Узел имени получает отчеты и импульсные ответы от каждого из узлов данных. Импульсные отклики обеспечивают доступность соответствующего узла данных. Отчет содержит подробную информацию о блоках на узле данных.


Другая реализация больших данных, Cassandra, также использует аналогичную концепцию распространения. Кассандра распространяет данные в зависимости от географического положения. Следовательно, в Кассандре данные разделены на основе географического местоположения использования данных.

Иногда небольшие данные оказывают большее (и менее дорогое) влияние

Согласно Руфусу Поллоку из Open Knowledge Foundation, нет смысла создавать шумиху вокруг больших данных, в то время как маленькие данные все еще являются местом, где находится реальная ценность.


Как следует из названия, небольшие данные - это набор данных, ориентированных на больший набор данных. Небольшие данные предназначены для смещения акцента с использования данных, а также для противодействия тенденции перехода к большим данным. Подход с небольшими данными помогает собирать данные на основе конкретных требований с меньшими усилиями. В результате это более эффективная практика ведения бизнеса при внедрении бизнес-аналитики.


По своей сути концепция малых данных вращается вокруг предприятий, которые требуют результатов, которые требуют дальнейших действий. Эти результаты должны быть получены быстро, и последующее действие также должно быть выполнено быстро. Таким образом, мы можем исключить виды систем, обычно используемые в аналитике больших данных.


В общем, если мы рассмотрим некоторые из конкретных систем, которые требуются для сбора больших данных, компания может инвестировать в создание большого объема серверного хранилища, использовать сложные высокопроизводительные серверы и новейшие приложения для анализа данных для обработки различных битов данных., включая даты и время действий пользователя, демографическую информацию и другую информацию. Весь этот набор данных перемещается в центральное хранилище данных, где используются сложные алгоритмы для сортировки и обработки данных для отображения в форме подробных отчетов.


Все мы знаем, что эти решения принесли пользу многим предприятиям с точки зрения масштабируемости и доступности; Есть организации, которые считают, что принятие этих подходов требует значительных усилий. Также верно, что в некоторых случаях аналогичные результаты достигаются при использовании менее надежной стратегии интеллектуального анализа данных.


Небольшие данные предоставляют организациям возможность отказаться от одержимости новейшими и новейшими технологиями, которые поддерживают более сложные бизнес-процессы. Компании, которые продвигают небольшие данные, утверждают, что с точки зрения бизнеса важно эффективно использовать свои ресурсы, чтобы в определенной степени избежать чрезмерных расходов на технологии.


Мы много говорили о реалиях больших и малых данных, но мы должны понимать, что выбор правильной платформы (большие или маленькие данные) для правильного использования является наиболее важной частью всего упражнения. И правда в том, что, хотя большие данные могут дать много преимуществ, это не всегда лучше.

Большие и малые данные: где реальная ценность?