Q:
Как я могу научиться использовать Hadoop для анализа больших данных?
A:Набор программного обеспечения Apache, известный как Hadoop, становится очень популярным ресурсом для работы с большими наборами данных. Этот тип программного обеспечения для обработки данных был создан для того, чтобы помочь агрегировать данные особым образом на основе проектов, которые могут сделать некоторые виды проектов данных более эффективными. Тем не менее, Hadoop является лишь одним из многих инструментов для обработки больших наборов данных.
Одним из первых и самых основных способов изучения анализа больших данных с помощью Hadoop является понимание некоторых компонентов Hadoop верхнего уровня и того, что он делает. К ним относятся «платформа управления ресурсами» Hadoop YARN, которая может применяться к определенным типам сетевых настроек, а также набор функций Hadoop MapReduce, которые применяются к большим наборам данных. Существует также распределенная файловая система Hadoop (HDFS), которая помогает хранить данные в распределенных системах, чтобы их можно было быстро и эффективно проиндексировать или извлечь.
Помимо этого, те, кто хочет лучше познакомиться с Hadoop, могут взглянуть на отдельные опубликованные ресурсы для специалистов, которые объясняют программное обеспечение на соответствующем уровне. Этот пример Криса Стуччио из личного блога дает превосходный набор сведений о Hadoop и масштабе данных. Одним из основных выводов является то, что Hadoop может использоваться чаще, чем необходимо, и, возможно, не является лучшим решением для отдельного проекта. Обзор таких ресурсов поможет специалистам лучше ознакомиться с деталями использования Hadoop в любом заданном сценарии. Stucchio также предоставляет метафоры для связи функций Hadoop с конкретными физическими задачами. Здесь в качестве примера подсчитывается количество книг в библиотеке, в то время как функция Hadoop может разбить эту библиотеку на разделы, обеспечивая отдельные подсчеты, которые объединяются в один совокупный результат данных.
Более подробный способ, с помощью которого профессионалы могут больше узнать о Hadoop и его применении к большим данным, - через специальные учебные ресурсы и программы. Например, компания онлайн-обучения Cloudera, выдающийся поставщик дистанционных обучающих сессий, имеет ряд интересных вариантов использования Hadoop и аналогичных типов обработки данных.