Na konferencji Apache Lucene Eurocon 2010, która miała miejsce w maju tego roku, Andrzej Białecki w swojej prezentacji opowiadał o sposobach pozwalających uzyskać zadowalające efekty wyszukiwania korzystając z technik wcześniejszej terminacji wyszukiwania. Niestety narzędzia o których była mowa, nie były dostępne w Solr – to się jednak zmieniło.
Solr
Szybkie spojrzenie – Solritas
Obserwując listy dyskusyjne możemy trafić na rozmowy o funkcjonalności Solr, której nazwa brzmi dość dziwnie – Solritas. Co to za funkcjonalność ? Jakie ma zastosowanie ? Aby poznać odpowiedzi na te pytania zapraszam do lektury dalszej części wpisu.
Szybkie spojrzenie – FieldCollapsing
FieldCollapsing, czyli inaczej grupowanie wyników wyszukiwania – funkcjonalność nad którą developerzy Lucene/Solr pracowali już od dłuższego czasu trafiła właśnie do repozytorium projektu Solr. Postanowiłem się przyjrzeć, w jaki sposób działa ta funkcjonalność.
6 grzechów konfiguracji Solr – solrconfig.xml
Plik solrconfig.xml jest kolejnym plikiem, który definiuje zachowanie Solr. W odróżnieniu od pliku opisującego strukturę indeksu, plik solrconfig.xml określa dostępne dla użytkownika funkcjonalności Solr. Tak samo, jak w przypadku pliku schema.xml można wyróżnić szereg standardowych błędów popełnianych przez osoby, które wdrażają Solr i nie mówię tu tylko o osobach, które mają niewielkie doświadczenie z Solr. W celu poznania niektórych z tych błędów zapraszam do dalszej lektury.
Solr: Importowanie danych
Solr nie jest przesadnie przyjazny początkującym użytkownikom. Przygotowanie dobrej schemy wymaga pewnego doświadczenia. Zakładając, że mamy już przygotowaną konfigurację, pozostaje nam udostępnienie swoich danych serwerowi wyszukiwania oraz zadbanie o możliwość aktualizacji danych.
5 grzechów podczas projektowania indeksu Solr
Zgodnie z obietnicą złożoną we wpisie na temat pliku schema.xml prezentujemy dzisiaj wpis dotyczący najczęściej popełnianych błędów podczas projektowania indeksu Solr, czyli podczas tworzenia i modyfikowania pliku schema.xml dla naszego wdrożenia. Zapraszam do dalszej lektury.
Możliwość facetingu w Solr
Faceting to jedna z metod kategoryzacji treści znalezionych w procesie wyszukiwania informacji. W przypadku Solr jest to podział zbioru znalezionych dokumentów na podstawie pewnego kryterium: zawartości pojedynczego pola, zapytania, czy też na podstawie przedziałów lub dat. W dzisiejszym wpisie postaram się przybliżyć możliwości wykorzystania mechanizmu facetingu, zarówno tego dostępnego obecnie w Solr 1.4.1, jak również tego co będzie dostępne w przyszłości.
Co to jest schema ?
Jednym z plików konfiguracyjnych opisujących każde wdrożenie Solr jest plik schema.xml. Opisuje on jedną z najważniejszych rzeczy dotyczącą wdrożenia – strukturę indeksu. Informacje zawarte w tym pliku pozwalają kontrolować, jak zachowuje się Solr podczas indeksowania danych, czy też zadawania zapytań do odpowiednich pól. Schema.xml to jednak nie tylko sama struktura indeksu, to także szczegółowe informacje o typach danych, które mają duży wpływ na zachowanie Solr, a z reguły są traktowane po macoszemu. Tym wpisem postaram się przybliżyć składowe pliku schema.xml.
6 grzechów głównych w kontekście zadawania zapytań
W swojej dotychczasowej pracy związanej z Lucene i Solr spotkałem się z różnymi zapytaniami. O ile w przypadku Lucene programista z reguły wie co chce osiągnąć i zastanawia się nad optymalnym rozwiązaniem, o tyle w przypadku Solr już tak nie jest. Solr jest produktem z którego teoretycznie może skorzystać każdy, zarówno osoba nie znająca języka Java, taka, która nie posiada szerokiej i specjalistycznej wiedzy technicznej, jak również programista. Właśnie ze względu na to, że Solr jest produktem, który bardzo łatwo uruchomić i z niego skorzystać, wiele osób nie zadaje sobie trudu związanego z przeczytaniem dokumentacji, czy przejrzeniem listy dyskusyjnej użytkowników. Co za tym idzie, ludzie Ci, wcześniej czy później popełniają błędy – błędy wynikające z różnych braków – braku wiedzy na temat Solr, umiejętności, doświadczenia, czy ze zwykłego braku czasu i napiętych terminów. Chciałbym dzisiaj przedstawić kilka podstawowych błędów przy składaniu zapytań i jak ich uniknąć.
CSVResponseWriter
Niedawno Solr otrzymał kolejną mała, aczkolwiek wartą wspomnienia funkcjonalność – kolejny, dostępny w standardowej dystrybucji format odpowiedzi – CSV. Postanowiłem napisać o tym kilka słów.