Apache Lucene - Apache Lucene

Lucene
Apache Lucene logo.svg
Разработчики) Фонд программного обеспечения Apache
Первый выпуск 1999 ; 22 года назад ( 1999 )
Стабильный выпуск
8.10.1 / 18 октября 2021 г . ; 0 дней назад ( 2021-10-18 )
Репозиторий
Написано в Джава
Операционная система Кроссплатформенность
Тип Поиск и индекс
Лицензия Лицензия Apache 2.0
Веб-сайт lucene .apache .org

Apache Lucene является свободным и открытым исходным кодом поисковой библиотеки программного обеспечения , первоначально написана на Java с помощью Doug Cutting . Он поддерживается Apache Software Foundation и выпускается под лицензией на программное обеспечение Apache . Lucene широко используется в качестве стандартной основы для поисковых приложений, не связанных с исследованиями.

Lucene был перенесен на другие языки программирования, включая Object Pascal , Perl , C # , C ++ , Python , Ruby и PHP .

История

Первоначально Дуг Каттинг написал Lucene в 1999 году. Lucene была его пятой поисковой системой, ранее он написал две в Xerox PARC, одну в Apple и четвертую в Excite. Первоначально он был доступен для загрузки на домашней странице SourceForge . В сентябре 2001 года он присоединился к семейству Java-продуктов с открытым исходным кодом Apache Software Foundation в Джакарте, а в феврале 2005 года стал его собственным проектом Apache верхнего уровня. Имя Lucene - это второе имя жены Дуга Каттинга и имя ее бабушки по материнской линии.

Lucene ранее включала ряд подпроектов, таких как Lucene.NET, Mahout , Tika и Nutch . Эти три теперь являются независимыми проектами верхнего уровня.

В марте 2010 года поисковый сервер Apache Solr присоединился к подпроекту Lucene, объединив сообщества разработчиков.

Версия 4.0 была выпущена 12 октября 2012 г.

В марте 2021 года Lucene изменила свой логотип, и Apache Solr снова стал проектом Apache высшего уровня, независимым от Lucene.

Особенности и общее использование

Хотя Lucene подходит для любых приложений, требующих возможности полнотекстового индексирования и поиска, она известна своей полезностью при реализации поисковых систем в Интернете и локального поиска по одному сайту.

Lucene включает функцию нечеткого поиска на основе расстояния редактирования .

Lucene также использовался для внедрения систем рекомендаций. Например, класс MoreLikeThis в Lucene может создавать рекомендации для похожих документов. При сравнении подхода «MoreLikeThis», основанного на векторном подобии, с критериями подобия документов на основе цитирования, такими как анализ близости совместного цитирования и совместного цитирования, подход Lucene превосходно рекомендовал документы с очень похожими структурными характеристиками и более узкой связью. . Напротив, меры схожести документов на основе цитирования, как правило, более подходят для рекомендации более общих документов, а это означает, что подходы на основе цитирования могут быть более подходящими для генерации случайных рекомендаций, если рекомендуемые документы содержат цитаты в тексте.

Проекты на основе Lucene

Сама Lucene представляет собой просто библиотеку для индексации и поиска и не содержит функций сканирования и анализа HTML . Однако несколько проектов расширяют возможности Lucene:

Смотрите также

использованная литература

Библиография

внешние ссылки