Оглавление:
- Как Hadoop получил свое начало?
- Что такого важного в Hadoop?
- Что такое схема на чтение?
- Что такое улей?
- Какие данные анализирует Hadoop?
- Можете ли вы привести реальный пример Hadoop?
- Hadoop уже устарел или просто трансформируется?
Что такое Hadoop? Это желтый игрушечный слон. Не то, что вы ожидали? Как насчет этого: Дуг Каттинг - один из создателей этого проекта программного обеспечения с открытым исходным кодом - позаимствовал имя у своего сына, который случайно назвал своего игрушечного слоненка Hadoop. В двух словах, Hadoop - это программная среда, разработанная Apache Software Foundation, которая используется для разработки распределенных вычислений с интенсивным использованием данных. И это ключевой компонент в других модных читателях, которые, кажется, никогда не получают достаточно: большие данные. Вот семь вещей, которые вы должны знать об этом уникальном, свободно лицензируемом программном обеспечении.
Как Hadoop получил свое начало?
Двенадцать лет назад Google создал платформу для управления огромными объемами данных, которые он собирал. Как это часто делает компания, Google сделал свой дизайн доступным для общественности в виде двух статей: Google File System и MapReduce.
В то же время Даг Каттинг и Майк Кафарелла работали над новой поисковой системой Nutch. Они также боролись с тем, как обрабатывать большие объемы данных. Затем два исследователя узнали о работах Google. Это счастливое пересечение изменило все, представив Cutting и Cafarella в лучшей файловой системе и способе отслеживать данные, что в конечном итоге привело к созданию Hadoop.
Что такого важного в Hadoop?
Сегодня сбор данных проще, чем когда-либо. Наличие всех этих данных представляет много возможностей, но есть и проблемы:- Огромные объемы данных требуют новых методов обработки.
- Захваченные данные представлены в неструктурированном формате.
Затем им пришлось работать с неструктурированными данными или данными в форматах, которые стандартные системы реляционных баз данных не могли обработать. Cutting и Cafarella разработали Hadoop для работы с любыми типами данных: структурированными, неструктурированными, изображениями, аудиофайлами и даже текстом. Этот технический документ Cloudera (интегратор Hadoop) объясняет, почему это важно:
-
«Обеспечивая возможность использования всех ваших данных, а не только того, что находится в ваших базах данных, Hadoop позволяет вам выявлять скрытые отношения и выявлять ответы, которые всегда были просто недосягаемы. на полные наборы данных, а не только образцы и резюме ".
Что такое схема на чтение?
Как упоминалось ранее, одним из преимуществ Hadoop является его способность обрабатывать неструктурированные данные. В каком-то смысле это «удар ногой по дороге». В конечном счете данные нуждаются в некоторой структуре для анализа.
Вот где схема на чтение вступает в игру. Схема при чтении - это слияние того, в каком формате находятся данные, где найти данные (помните, что данные разбросаны по нескольким серверам) и что нужно сделать с данными - непростая задача. Говорят, что для манипулирования данными в системе Hadoop требуются навыки бизнес-аналитика, статистики и программиста на Java. К сожалению, людей с такой квалификацией не так много.
Что такое улей?
Если Hadoop собирается добиться успеха, работа с данными должна быть упрощена. Итак, толпа с открытым исходным кодом приступила к работе и создала Hive:-
«Hive предоставляет механизм для проецирования структуры на эти данные и запроса данных с использованием языка, похожего на SQL, называемого HiveQL. В то же время этот язык также позволяет традиционным программистам карт / редукторов подключать свои собственные преобразователи и редукторы, когда это неудобно или неэффективно, чтобы выразить эту логику в HiveQL. "
Hive обеспечивает лучшее из обоих миров: персонал базы данных, знакомый с командами SQL, может манипулировать данными, а разработчики, знакомые со схемой процесса чтения, все еще могут создавать настраиваемые запросы.
Какие данные анализирует Hadoop?
Веб-аналитика - это первое, что приходит на ум, анализируя веб-журналы и веб-трафик с целью оптимизации веб-сайтов. Например, Facebook определенно занимается веб-аналитикой, используя Hadoop для сортировки терабайтов данных, которые компания накапливает.
Компании используют кластеры Hadoop для анализа рисков, выявления мошенничества и сегментации клиентской базы. Коммунальные компании используют Hadoop для анализа данных датчиков со своих электрических сетей, что позволяет им оптимизировать производство электроэнергии. Крупные компании, такие как Target, 3M и Medtronics, используют Hadoop для оптимизации распределения продуктов, оценки бизнес-рисков и сегментации клиентской базы.
В Hadoop инвестируются и университеты. Брэд Рубин, адъюнкт-профессор программ магистратуры в области программного обеспечения Университета Сент-Томас, отметил, что его опыт в Hadoop помогает сортировать обильные объемы данных, собираемых исследовательскими группами в университете.
Можете ли вы привести реальный пример Hadoop?
Один из наиболее известных примеров - TimesMachine. В New York Times имеется коллекция полностраничных газетных изображений TIFF, соответствующих метаданных и текста статьи с 1851 по 1922 годы, насчитывающая терабайты данных. Дерек Готфрид из NYT, использующий систему EC2 / S3 / Hadoop и специализированный код:-
«Вложено 405 000 очень больших изображений TIFF, 3, 3 миллиона статей в SGML и 405 000 файлов XML, отображающих статьи в прямоугольные области в файлах TIFF. Эти данные были преобразованы в более удобные для Интернета 810 000 изображений PNG (миниатюры и полные изображения) и 405 000 файлов JavaScript. "
Используя серверы в облаке Amazon Web Services, Готфрид отметил, что они смогли обработать все данные, необходимые для TimesMachine, менее чем за 36 часов.
Hadoop уже устарел или просто трансформируется?
Hadoop существует уже более десяти лет. Многие говорят, что это устарело. Один из экспертов, доктор Дэвид Рико, сказал, что «ИТ-продукты недолговечны. В годы собак у Google их было около 70, а у Hadoop 56».
В том, что говорит Рико, может быть доля правды. Похоже, что Hadoop проходит капитальный ремонт. Чтобы узнать об этом больше, Рубин пригласил меня на встречу группы пользователей Hadoop в Twin Cities, и темой обсуждения было введение в YARN:
-
«Apache Hadoop 2 включает новый механизм MapReduce, который имеет ряд преимуществ по сравнению с предыдущей реализацией, включая лучшую масштабируемость и использование ресурсов. Новая реализация построена на общей системе управления ресурсами для запуска распределенных приложений под названием YARN».