Оглавление:
Определение - Что означает Apache Lucene?
Apache Lucene - это проект с открытым исходным кодом для высокопроизводительной и полнофункциональной библиотеки текстового поискового движка, который полностью написан на Java.
Он способен выполнять полнотекстовый поиск по документам, поэтому эта технология подходит для любого приложения, которому требуется эта функция, особенно если она кроссплатформенная.
Впервые он был разработан Дугом Каттингом в 1999 году и официально стал частью семейства Java-проектов Apache Foundation Jakarta Foundation в сентябре 2001 года. В феврале 2005 года он был обновлен до проекта Apache верхнего уровня.
Техопедия объясняет Apache Lucene
Apache Lucene - это высокопроизводительный поисковый движок с концепцией «документ, содержащий поля текста» в своей основной логической архитектуре. Это обеспечивает большую гибкость и позволяет API Lucene стать независимым от любого формата файла.
Любой текст из таких форматов, как MS Word, HTML, XML, PDF и OpenDocument, может быть проиндексирован при условии извлечения текстовой информации, что означает, что он ничего не может сделать с изображениями.
Lucene подходит для любого приложения, которому требуется возможность полнотекстового индексирования и поиска, но он широко признан как отличная утилита для реализации поисковых систем в Интернете и для локального поиска по одному сайту.
Особенности включают в себя:
- Масштабируемая и высокопроизводительная индексация - она может обрабатывать более 150 ГБ в час на современном оборудовании и требует только 1 МБ на кучу памяти.
- Мощные, точные и эффективные алгоритмы поиска - он предлагает множество типов мощных запросов, таких как фразы, групповые символы, запросы близости и диапазона. Он также полон поиска и сортировки по любому полю.
- Кроссплатформенная - чистая реализация Java, а также доступная на других языках программирования.
