Apache Lucene i Solr 4.0 alpha

W dniu dzisiejszym ogłoszone zostało wydanie wersji 4.0 alpha biblioteki Apache Lucene oraz serwera wyszukiwania Apache Solr. Jest to pierwsza wersja przygotowująca do pełnego wydania wersji 4.0. W stosunku do wersji 3.6 zostało wprowadzonych bardzo wiele zmian, o których więcej informacji w rozwinięciu.

Niektóre zmiany w wersji 4.0 alpha w stosunku do wersji 3.6:

  • Lucene
    • Implementacja algorytmu podobieństwa (Similarity) została zmieniona. Oprócz tego dodano nowe modele podobieństwa takie jak na przykład BM25.
    • Klasa InderWriter jest w stanie zapisywać dane do różnych segmentów (w przypadku indeksowania wielowątkowego) co skutkuje wyraźnym wzrostem wydajności podczas indeksowania.
    • Wprowadzone zostało API kodeków, umożliwiające wybór (lub własną implementację) metody, która odpowiedzialna jest za zapisywanie takich informacji w indeksie.
    • Poprawiono wydajność FuzzyQuery – obecna implementacja jest od 100 do 200 razy szybsza.
    • Wprowadzono nową implementację SpellChecker’a – DirectSpellChecker, który nie wymaga oddzielnego indeksu.
    • Wprowadzono statystyki indeksu umożliwiające sprawdzenie informacji o indeksie.
    • Wprowadzono nowy typ zapytań – AutomatonQuery które zwracają dokumenty, które posiadają dowolny term zwracany przez podany automat stanowy.
    • I wiele, wiele innych…
  • Solr
    • Solr zawiera teraz kod zwany jako SolrCloud umożliwiający rozproszone indeksowanie i wyszukiwanie w oparciu o Apache Solr. Więcej można znaleźć pod adresami: http://wiki.apache.org/solr/SolrCloud oraz http://blog.sematext.com/2012/02/01/solrcloud-distributed-realtime-search/
    • Wprowadzenie loga transakcyjnego, który zapewnia brak utraty indeksowanych dokumentów.
    • Wprowadzono funkcjonalność Real-time Get umożliwiającą pobieranie dokumentów, które jeszcze nie zostały zapisane po operacji commit albo otwarciu nowego Searcher’a (więcej informacji).
    • Wprowadzono DirectSolrSpellChecker, czyli implementację SpellChecker’a nie wymagającą oddzielnego indeksu (więcej informacji).
    • Nowy panel administracyjny ze wsparciem dla SolrCloud.
    • Możliwość aktualizacji pojedynczych pól w dokumencie, bez konieczności powtórnego wysyłania całego dokumentu – tzw.Atomic updates.
    • Możliwość manipulacji nazwami pól podczas zapytań (więcej informacji).
    • I wiele innych…

Pełna lista zmian w bibliotece Apache Lucene 4.0 alpha znajduje się pod adresem: http://wiki.apache.org/lucene-java/ReleaseNote40alpha. Pełną listę zmian w Apache Solr 4.0 alpha znajdziemy pod adresem: http://wiki.apache.org/solr/ReleaseNote40alpha.

Bibliotekę Apache Lucene w wersji 4.0 alpha możemy znaleźć pod adresem: http://www.apache.org/dyn/closer.cgi/lucene/java/. Silnik wyszukiwania Apache Solr w wersji 4.0 alpha można znaleźć pod adresem http://www.apache.org/dyn/closer.cgi/lucene/solr/. Należy pamiętać, iż w chwili publikowania tego wpisu wszystkie mirrory mogą nie być jeszcze uaktualnione.

This post is also available in: angielski

This entry was posted on wtorek, Lipiec 3rd, 2012 at 14:17 and is filed under Bez kategorii. You can follow any responses to this entry through the RSS 2.0 feed. You can leave a response, or trackback from your own site.

3 komentarze to “Apache Lucene i Solr 4.0 alpha”

  1. Nieznaczący anonim Says:

    Jestem pod ogromnym wrażeniem… To co potrafi zrobić Solr po odpowiednim zagłębieniu się w temat jest nieprawdopodobne. Moim zdaniem ElasticSearch nie ma co do niego ze swą marną dokumentacją i marną funkcjonalnością, stabilnością teraz startować 🙂

  2. gr0 Says:

    Pracuję z Solr’em i ElasticSearch’em na co dzień u różnych klientów i pozwolę się sobie nie zgodzić z tym co napisałeś powyżej. Jest wiele elementów Elastic’a, których Solr po prostu nie ma lub ma w ograniczonym stopniu – np. takich jak kontrola, do jakiego shard’a trafi dokument podczas indeksowania, czy określanie analizy na poziomie pojedynczego dokumentu (to tylko przykłady). Z drugiej strony Solr ma wiele funkcjonalności, których nie ma ElasticSearch.

  3. Nieznaczący anonim Says:

    Możliwe, że nieco zapędziłem się z tym stwierdzeniem, ale po prostu nie pojąłem jeszcze zbytnio działania ElasticSearch. W każdym bądź razie na początku mojej przygody z SOLR’em ten blog bardzo mi pomógł, za co bardzo Ci, Wam dziękuję 😉