7 вещей, которые нужно знать о hadoop

2025

Как Hadoop получил свое начало?
Что такого важного в Hadoop?
Что такое схема на чтение?
Что такое улей?
Какие данные анализирует Hadoop?
Можете ли вы привести реальный пример Hadoop?
Hadoop уже устарел или просто трансформируется?

Что такое Hadoop? Это желтый игрушечный слон. Не то, что вы ожидали? Как насчет этого: Дуг Каттинг - один из создателей этого проекта программного обеспечения с открытым исходным кодом - позаимствовал имя у своего сына, который случайно назвал своего игрушечного слоненка Hadoop. В двух словах, Hadoop - это программная среда, разработанная Apache Software Foundation, которая используется для разработки распределенных вычислений с интенсивным использованием данных. И это ключевой компонент в других модных читателях, которые, кажется, никогда не получают достаточно: большие данные. Вот семь вещей, которые вы должны знать об этом уникальном, свободно лицензируемом программном обеспечении.

Как Hadoop получил свое начало?

Двенадцать лет назад Google создал платформу для управления огромными объемами данных, которые он собирал. Как это часто делает компания, Google сделал свой дизайн доступным для общественности в виде двух статей: Google File System и MapReduce.

В то же время Даг Каттинг и Майк Кафарелла работали над новой поисковой системой Nutch. Они также боролись с тем, как обрабатывать большие объемы данных. Затем два исследователя узнали о работах Google. Это счастливое пересечение изменило все, представив Cutting и Cafarella в лучшей файловой системе и способе отслеживать данные, что в конечном итоге привело к созданию Hadoop.

Что такого важного в Hadoop?

Сегодня сбор данных проще, чем когда-либо. Наличие всех этих данных представляет много возможностей, но есть и проблемы:

Огромные объемы данных требуют новых методов обработки.
Захваченные данные представлены в неструктурированном формате.

Чтобы преодолеть трудности, связанные с манипулированием огромным количеством неструктурированных данных, Cutting и Cafarella предложили решение, состоящее из двух частей. Чтобы решить проблему количества данных, Hadoop использует распределенную среду - сеть обычных серверов - создавая кластер параллельной обработки, который обеспечивает большую вычислительную мощность для выполнения поставленной задачи.

Затем им пришлось работать с неструктурированными данными или данными в форматах, которые стандартные системы реляционных баз данных не могли обработать. Cutting и Cafarella разработали Hadoop для работы с любыми типами данных: структурированными, неструктурированными, изображениями, аудиофайлами и даже текстом. Этот технический документ Cloudera (интегратор Hadoop) объясняет, почему это важно:

«Обеспечивая возможность использования всех ваших данных, а не только того, что находится в ваших базах данных, Hadoop позволяет вам выявлять скрытые отношения и выявлять ответы, которые всегда были просто недосягаемы. на полные наборы данных, а не только образцы и резюме ".

Что такое схема на чтение?

Как упоминалось ранее, одним из преимуществ Hadoop является его способность обрабатывать неструктурированные данные. В каком-то смысле это «удар ногой по дороге». В конечном счете данные нуждаются в некоторой структуре для анализа.

Вот где схема на чтение вступает в игру. Схема при чтении - это слияние того, в каком формате находятся данные, где найти данные (помните, что данные разбросаны по нескольким серверам) и что нужно сделать с данными - непростая задача. Говорят, что для манипулирования данными в системе Hadoop требуются навыки бизнес-аналитика, статистики и программиста на Java. К сожалению, людей с такой квалификацией не так много.

Что такое улей?

Если Hadoop собирается добиться успеха, работа с данными должна быть упрощена. Итак, толпа с открытым исходным кодом приступила к работе и создала Hive:

«Hive предоставляет механизм для проецирования структуры на эти данные и запроса данных с использованием языка, похожего на SQL, называемого HiveQL. В то же время этот язык также позволяет традиционным программистам карт / редукторов подключать свои собственные преобразователи и редукторы, когда это неудобно или неэффективно, чтобы выразить эту логику в HiveQL. "

Hive обеспечивает лучшее из обоих миров: персонал базы данных, знакомый с командами SQL, может манипулировать данными, а разработчики, знакомые со схемой процесса чтения, все еще могут создавать настраиваемые запросы.

Какие данные анализирует Hadoop?

Веб-аналитика - это первое, что приходит на ум, анализируя веб-журналы и веб-трафик с целью оптимизации веб-сайтов. Например, Facebook определенно занимается веб-аналитикой, используя Hadoop для сортировки терабайтов данных, которые компания накапливает.

Компании используют кластеры Hadoop для анализа рисков, выявления мошенничества и сегментации клиентской базы. Коммунальные компании используют Hadoop для анализа данных датчиков со своих электрических сетей, что позволяет им оптимизировать производство электроэнергии. Крупные компании, такие как Target, 3M и Medtronics, используют Hadoop для оптимизации распределения продуктов, оценки бизнес-рисков и сегментации клиентской базы.

В Hadoop инвестируются и университеты. Брэд Рубин, адъюнкт-профессор программ магистратуры в области программного обеспечения Университета Сент-Томас, отметил, что его опыт в Hadoop помогает сортировать обильные объемы данных, собираемых исследовательскими группами в университете.

Можете ли вы привести реальный пример Hadoop?

Один из наиболее известных примеров - TimesMachine. В New York Times имеется коллекция полностраничных газетных изображений TIFF, соответствующих метаданных и текста статьи с 1851 по 1922 годы, насчитывающая терабайты данных. Дерек Готфрид из NYT, использующий систему EC2 / S3 / Hadoop и специализированный код:

«Вложено 405 000 очень больших изображений TIFF, 3, 3 миллиона статей в SGML и 405 000 файлов XML, отображающих статьи в прямоугольные области в файлах TIFF. Эти данные были преобразованы в более удобные для Интернета 810 000 изображений PNG (миниатюры и полные изображения) и 405 000 файлов JavaScript. "

Используя серверы в облаке Amazon Web Services, Готфрид отметил, что они смогли обработать все данные, необходимые для TimesMachine, менее чем за 36 часов.

Hadoop уже устарел или просто трансформируется?

Hadoop существует уже более десяти лет. Многие говорят, что это устарело. Один из экспертов, доктор Дэвид Рико, сказал, что «ИТ-продукты недолговечны. В годы собак у Google их было около 70, а у Hadoop 56».

В том, что говорит Рико, может быть доля правды. Похоже, что Hadoop проходит капитальный ремонт. Чтобы узнать об этом больше, Рубин пригласил меня на встречу группы пользователей Hadoop в Twin Cities, и темой обсуждения было введение в YARN:

«Apache Hadoop 2 включает новый механизм MapReduce, который имеет ряд преимуществ по сравнению с предыдущей реализацией, включая лучшую масштабируемость и использование ресурсов. Новая реализация построена на общей системе управления ресурсами для запуска распределенных приложений под названием YARN». Hadoop пользуется большим спросом в кругах по управлению базами данных и контентом, но по-прежнему остается много вопросов о том, как его лучше всего использовать. Это всего лишь несколько. Если у вас есть больше, отправьте их нам. Мы ответим на лучшие из них на Techopedia.com.

7 вещей, которые нужно знать о hadoop

Оглавление:

Как Hadoop получил свое начало?

Что такого важного в Hadoop?

Что такое схема на чтение?

Что такое улей?

Какие данные анализирует Hadoop?

Можете ли вы привести реальный пример Hadoop?

Hadoop уже устарел или просто трансформируется?

10 вещей, которые нужно знать о Windows 8

5 вещей, которые нужно знать о больших данных

5 вещей, которые нужно знать о ценах в облаке

Выбор редактора

Какова общая стоимость владения (TCO)? - определение из техопедии

Что такое пикселизация? - определение из техопедии

Что такое прогон сайта (рос)? - определение из техопедии

Что такое шоу контроль? - определение из техопедии

Выбор редактора

7 моментов, которые следует учитывать при разработке политики безопасности byod

Возьми это, большие данные! почему маленькие данные могут дать больший удар

Unix / Linux оболочек 101

Почему происходит потеря данных - и что с этим делать

Выбор редактора

Что такое ледифон? - определение из техопедии

Насколько это безопасно? - определение из техопедии

Что такое фейсбук мессенджер? - определение из техопедии

Что такое арифметическая логическая единица (alu)? - определение из техопедии

Выбор редактора

Что такое мониторинг виртуализации? - определение из техопедии

Что такое безопасность виртуализации? - определение из техопедии

Что такое мониторинг транзакций? - определение из техопедии

Что такое блокчейн? - определение из техопедии

Выбор редактора

Что такое реинтермедиация? - определение из техопедии

Что такое флеш плеер? - определение из техопедии

Что такое Idevice? - определение из техопедии

Что такое яблочный телевизор? - определение из техопедии

Популярные категории