Оглавление:
Определение - что означает Apache Nutch?
Apache Nutch - это программный продукт для веб-поиска, который можно использовать для сбора данных из Интернета. Он используется в сочетании с другими инструментами Apache, такими как Hadoop, для анализа данных.
Техопедия объясняет Apache Nutch
Apache Nutch - это продукт с открытым исходным кодом, лицензированный Apache Software Foundation. Это сообщество разработчиков имеет лицензии на ряд программных инструментов Apache, которые могут сортировать и анализировать данные. Одна из центральных технологий - Apache Hadoop, инструмент для анализа больших данных, который очень популярен в бизнес-сообществе.
Наряду с такими инструментами, как Apache Hadoop и функциями для хранения, анализа и т. Д., Роль Nutch заключается в сборе и хранении данных из Интернета с помощью алгоритмов сканирования в Интернете.
Пользователи могут использовать простые команды в Apache Nutch для сбора информации по URL-адресам. Пользователи обычно используют Apache Nutch вместе с другим инструментом с открытым исходным кодом, фреймворком под названием Apache Solr, который может выступать в качестве хранилища данных, собираемых с помощью Apache Nutch.