W dniu dzisiejszym ogłoszone zostało wydanie wersji 4.0 alpha biblioteki Apache Lucene oraz serwera wyszukiwania Apache Solr. Jest to pierwsza wersja przygotowująca do pełnego wydania wersji 4.0. W stosunku do wersji 3.6 zostało wprowadzonych bardzo wiele zmian, o których więcej informacji w rozwinięciu.
Niektóre zmiany w wersji 4.0 alpha w stosunku do wersji 3.6:
- Lucene
- Implementacja algorytmu podobieństwa (Similarity) została zmieniona. Oprócz tego dodano nowe modele podobieństwa takie jak na przykład BM25.
- Klasa InderWriter jest w stanie zapisywać dane do różnych segmentów (w przypadku indeksowania wielowątkowego) co skutkuje wyraźnym wzrostem wydajności podczas indeksowania.
- Wprowadzone zostało API kodeków, umożliwiające wybór (lub własną implementację) metody, która odpowiedzialna jest za zapisywanie takich informacji w indeksie.
- Poprawiono wydajność FuzzyQuery – obecna implementacja jest od 100 do 200 razy szybsza.
- Wprowadzono nową implementację SpellChecker’a – DirectSpellChecker, który nie wymaga oddzielnego indeksu.
- Wprowadzono statystyki indeksu umożliwiające sprawdzenie informacji o indeksie.
- Wprowadzono nowy typ zapytań – AutomatonQuery które zwracają dokumenty, które posiadają dowolny term zwracany przez podany automat stanowy.
- I wiele, wiele innych…
- Solr
- Solr zawiera teraz kod zwany jako SolrCloud umożliwiający rozproszone indeksowanie i wyszukiwanie w oparciu o Apache Solr. Więcej można znaleźć pod adresami: http://wiki.apache.org/solr/SolrCloud oraz http://blog.sematext.com/2012/02/01/solrcloud-distributed-realtime-search/
- Wprowadzenie loga transakcyjnego, który zapewnia brak utraty indeksowanych dokumentów.
- Wprowadzono funkcjonalność Real-time Get umożliwiającą pobieranie dokumentów, które jeszcze nie zostały zapisane po operacji commit albo otwarciu nowego Searcher’a (więcej informacji).
- Wprowadzono DirectSolrSpellChecker, czyli implementację SpellChecker’a nie wymagającą oddzielnego indeksu (więcej informacji).
- Nowy panel administracyjny ze wsparciem dla SolrCloud.
- Możliwość aktualizacji pojedynczych pól w dokumencie, bez konieczności powtórnego wysyłania całego dokumentu – tzw.Atomic updates.
- Możliwość manipulacji nazwami pól podczas zapytań (więcej informacji).
- I wiele innych…
Pełna lista zmian w bibliotece Apache Lucene 4.0 alpha znajduje się pod adresem: http://wiki.apache.org/lucene-java/ReleaseNote40alpha. Pełną listę zmian w Apache Solr 4.0 alpha znajdziemy pod adresem: http://wiki.apache.org/solr/ReleaseNote40alpha.
Bibliotekę Apache Lucene w wersji 4.0 alpha możemy znaleźć pod adresem: http://www.apache.org/dyn/closer.cgi/lucene/java/. Silnik wyszukiwania Apache Solr w wersji 4.0 alpha można znaleźć pod adresem http://www.apache.org/dyn/closer.cgi/lucene/solr/. Należy pamiętać, iż w chwili publikowania tego wpisu wszystkie mirrory mogą nie być jeszcze uaktualnione.