Apache Lucene i Solr 4.0 alpha

W dniu dzisiejszym ogłoszone zostało wydanie wersji 4.0 alpha biblioteki Apache Lucene oraz serwera wyszukiwania Apache Solr. Jest to pierwsza wersja przygotowująca do pełnego wydania wersji 4.0. W stosunku do wersji 3.6 zostało wprowadzonych bardzo wiele zmian, o których więcej informacji w rozwinięciu.

Niektóre zmiany w wersji 4.0 alpha w stosunku do wersji 3.6:

  • Lucene
    • Implementacja algorytmu podobieństwa (Similarity) została zmieniona. Oprócz tego dodano nowe modele podobieństwa takie jak na przykład BM25.
    • Klasa InderWriter jest w stanie zapisywać dane do różnych segmentów (w przypadku indeksowania wielowątkowego) co skutkuje wyraźnym wzrostem wydajności podczas indeksowania.
    • Wprowadzone zostało API kodeków, umożliwiające wybór (lub własną implementację) metody, która odpowiedzialna jest za zapisywanie takich informacji w indeksie.
    • Poprawiono wydajność FuzzyQuery – obecna implementacja jest od 100 do 200 razy szybsza.
    • Wprowadzono nową implementację SpellChecker’a – DirectSpellChecker, który nie wymaga oddzielnego indeksu.
    • Wprowadzono statystyki indeksu umożliwiające sprawdzenie informacji o indeksie.
    • Wprowadzono nowy typ zapytań – AutomatonQuery które zwracają dokumenty, które posiadają dowolny term zwracany przez podany automat stanowy.
    • I wiele, wiele innych…
  • Solr
    • Solr zawiera teraz kod zwany jako SolrCloud umożliwiający rozproszone indeksowanie i wyszukiwanie w oparciu o Apache Solr. Więcej można znaleźć pod adresami: http://wiki.apache.org/solr/SolrCloud oraz http://blog.sematext.com/2012/02/01/solrcloud-distributed-realtime-search/
    • Wprowadzenie loga transakcyjnego, który zapewnia brak utraty indeksowanych dokumentów.
    • Wprowadzono funkcjonalność Real-time Get umożliwiającą pobieranie dokumentów, które jeszcze nie zostały zapisane po operacji commit albo otwarciu nowego Searcher’a (więcej informacji).
    • Wprowadzono DirectSolrSpellChecker, czyli implementację SpellChecker’a nie wymagającą oddzielnego indeksu (więcej informacji).
    • Nowy panel administracyjny ze wsparciem dla SolrCloud.
    • Możliwość aktualizacji pojedynczych pól w dokumencie, bez konieczności powtórnego wysyłania całego dokumentu – tzw.Atomic updates.
    • Możliwość manipulacji nazwami pól podczas zapytań (więcej informacji).
    • I wiele innych…

Pełna lista zmian w bibliotece Apache Lucene 4.0 alpha znajduje się pod adresem: http://wiki.apache.org/lucene-java/ReleaseNote40alpha. Pełną listę zmian w Apache Solr 4.0 alpha znajdziemy pod adresem: http://wiki.apache.org/solr/ReleaseNote40alpha.

Bibliotekę Apache Lucene w wersji 4.0 alpha możemy znaleźć pod adresem: http://www.apache.org/dyn/closer.cgi/lucene/java/. Silnik wyszukiwania Apache Solr w wersji 4.0 alpha można znaleźć pod adresem http://www.apache.org/dyn/closer.cgi/lucene/solr/. Należy pamiętać, iż w chwili publikowania tego wpisu wszystkie mirrory mogą nie być jeszcze uaktualnione.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *