Apache Lucene - Apache Lucene
Разработчики) | Фонд программного обеспечения Apache |
---|---|
Первый выпуск | 1999 |
Стабильный выпуск | 8.10.1 / 18 октября 2021 г .
|
Репозиторий | |
Написано в | Джава |
Операционная система | Кроссплатформенность |
Тип | Поиск и индекс |
Лицензия | Лицензия Apache 2.0 |
Веб-сайт | lucene |
Apache Lucene является свободным и открытым исходным кодом поисковой библиотеки программного обеспечения , первоначально написана на Java с помощью Doug Cutting . Он поддерживается Apache Software Foundation и выпускается под лицензией на программное обеспечение Apache . Lucene широко используется в качестве стандартной основы для поисковых приложений, не связанных с исследованиями.
Lucene был перенесен на другие языки программирования, включая Object Pascal , Perl , C # , C ++ , Python , Ruby и PHP .
История
Первоначально Дуг Каттинг написал Lucene в 1999 году. Lucene была его пятой поисковой системой, ранее он написал две в Xerox PARC, одну в Apple и четвертую в Excite. Первоначально он был доступен для загрузки на домашней странице SourceForge . В сентябре 2001 года он присоединился к семейству Java-продуктов с открытым исходным кодом Apache Software Foundation в Джакарте, а в феврале 2005 года стал его собственным проектом Apache верхнего уровня. Имя Lucene - это второе имя жены Дуга Каттинга и имя ее бабушки по материнской линии.
Lucene ранее включала ряд подпроектов, таких как Lucene.NET, Mahout , Tika и Nutch . Эти три теперь являются независимыми проектами верхнего уровня.
В марте 2010 года поисковый сервер Apache Solr присоединился к подпроекту Lucene, объединив сообщества разработчиков.
Версия 4.0 была выпущена 12 октября 2012 г.
В марте 2021 года Lucene изменила свой логотип, и Apache Solr снова стал проектом Apache высшего уровня, независимым от Lucene.
Особенности и общее использование
Хотя Lucene подходит для любых приложений, требующих возможности полнотекстового индексирования и поиска, она известна своей полезностью при реализации поисковых систем в Интернете и локального поиска по одному сайту.
Lucene включает функцию нечеткого поиска на основе расстояния редактирования .
Lucene также использовался для внедрения систем рекомендаций. Например, класс MoreLikeThis в Lucene может создавать рекомендации для похожих документов. При сравнении подхода «MoreLikeThis», основанного на векторном подобии, с критериями подобия документов на основе цитирования, такими как анализ близости совместного цитирования и совместного цитирования, подход Lucene превосходно рекомендовал документы с очень похожими структурными характеристиками и более узкой связью. . Напротив, меры схожести документов на основе цитирования, как правило, более подходят для рекомендации более общих документов, а это означает, что подходы на основе цитирования могут быть более подходящими для генерации случайных рекомендаций, если рекомендуемые документы содержат цитаты в тексте.
Проекты на основе Lucene
Сама Lucene представляет собой просто библиотеку для индексации и поиска и не содержит функций сканирования и анализа HTML . Однако несколько проектов расширяют возможности Lucene:
- Apache Nutch - обеспечивает сканирование веб-страниц и анализ HTML.
- Apache Solr - поисковый сервер предприятия
- Компас - предшественник Elasticsearch
- CrateDB - распределенная база данных SQL с открытым исходным кодом, построенная на Lucene
- DocFetcher - мультиплатформенное настольное приложение для поиска
- Elasticsearch - поисковый сервер уровня предприятия, выпущенный в 2010 г.
- Kinosearch - поисковая система, написанная на Perl и C, и свободный порт Lucene. Socialtext вики программное обеспечение использует поисковую систему, и поэтому делает MojoMojo вики. Он также используется базой данных метаболома человека (HMDB) и базой данных токсинов и токсинов-мишеней (T3DB).
- MongoDB Atlas Search - облачное корпоративное поисковое приложение на основе MongoDB и Apache Lucene
- OpenSearch - поисковый сервер уровня предприятия с открытым исходным кодом, основанный на ответвлении Elasticsearch 7.
- Swiftype - стартап поисковой системы предприятия, основанный на Lucene
Смотрите также
- Корпоративный поиск
- Извлечение информации
- Список информационно-поисковых библиотек
- Текстовый майнинг
использованная литература
Библиография
- Gospodnetic, Otis; Эрик Хэтчер; Майкл МакКэндлесс (28 июня 2009 г.). Lucene в действии (2-е изд.). Публикации Мэннинга . ISBN 978-1-9339-8817-7.
- Gospodnetic, Otis; Эрик Хэтчер (1 декабря 2004 г.). Lucene в действии (1-е изд.). Публикации Мэннинга . ISBN 978-1-9323-9428-3.