Możliwość facetingu w Solr

Faceting to jedna z metod kategoryzacji treści znalezionych w procesie wyszukiwania informacji. W przypadku Solr jest to podział zbioru znalezionych dokumentów na podstawie pewnego kryterium: zawartości pojedynczego pola, zapytania, czy też na podstawie przedziałów lub dat. W dzisiejszym wpisie postaram się przybliżyć możliwości wykorzystania mechanizmu facetingu, zarówno tego dostępnego obecnie w Solr 1.4.1, jak również tego co będzie dostępne w przyszłości.

Jednym z niewielu źródeł dotyczących facetingu jest wiki Solr, a dokładniej strona pod adresem: http://wiki.apache.org/solr/SimpleFacetParameters. Poniższy artykuł jest rozszerzeniem informacji dostępnych na wymienionej stronie.

Faceting w Solr można podzielić na cztery podstawowe rodzaje:

  • faceting po polu,
  • faceting za pomocą zapytania,
  • faceting po datach,
  • faceting po przedziałach.

Aby uruchomić mechanizm facetingu, należy do zapytania, które zadajemy do Solr dołączyć parametr facet z wartością true.

Faceting po polu

Pierwszy rodzaj facetingu, polegający na kategoryzacji znalezionych dokumentów ze względu na zawartość podanego pola. Dzięki temu rodzajowi facetingu jesteśmy w stanie pobrać ilości dokumentów znalezionych na przykład w poszczególnych kategoriach, czy w podziale na lokalizację geograficzną. Faceting ten charakteryzuje się sporą liczbą opcji i możliwości konfigurowania jego zachowań. Poniżej parametry możliwe do wykorzystania:

  • facet.field – pole po którym będzie wykonywany faceting. W jednym zapytaniu może być wiele pól po którym wykonywany będzie faceting. Należy jednak liczyć się ze spadkiem wydajności w przypadku dużej ilości pól, po których wykonujemy faceting.
  • facet.prefix – ogranicza wyniki facetingu do tych, które zaczynają się od podanego przedrostka. Parametr może być definiowany dla poszczególnych pól przekazanych w parametrze facet.field poprzez dodanie nazwy pola w następujący sposób: facet.NAZWA_POLA.prefix.  Z pomocą tego parametru w dość prosty sposób można wdrożyć mechanizm autocomplete.
  • facet.sort – określa w jaki sposób mają być sortowane wyniki facetingu. Jeżeli korzystamy z Solr w wersji niższej, niż 1.4 parametr ten przyjmuje wartości true lub false oznaczające kolejno: sortowanie po ilości wyników oraz sortowanie według porządku w indeksie (w przypadku znaków ASCII oznacza sortowania alfabetyczne). Jeżeli natomiast korzystamy z Solr w wersji 1.4 lub wyższej powinniśmy korzystać z wartości count (oznaczającej to samo co wartość true) oraz index (oznaczającej to samo co false). Warto wiedzieć, iż wartością domyślną parametru jest wartość true/count w przypadku ustawienia parametru facet.limit na wartość 0 lub false/index w przypadku ustawienia większego limitu. Parametr może być definiowany dla poszczególnych pól przekazanych w parametrze facet.field.
  • facet.limit – parametr określający jak dużo unikalnych wartości ma zwrócić mechanizm facetingu dla danego pola. Wartość ujemna tego parametru oznacza brak ustawionego limitu. Należy pamiętać, iż im większy limit, tym większą ilość pamięci potrzebujemy oraz tym dłuższy czas wykonywania zapytania. Wartość domyślna parametru to 100. Parametr może być definiowany dla poszczególnych pól przekazanych w parametrze facet.field.
  • facet.offset – parametr określający od którego wyniku facetingu prezentować wyniki. Wartość domyślna parametru to 0. Parametr może być wykorzystany do stronicowania wyników facetingu. Parametr może być definiowany dla poszczególnych pól przekazanych w parametrze facet.field.
  • facet.mincount – parametr określający, jaką minimalną liczność musi mieć dany wynik, aby pokazany został w wynikach facetingu. Domyślna wartość tego parametru to 0. Parametr może być definiowany dla poszczególnych pól przekazanych w parametrze facet.field.
  • facet.missing – parametr określający, czy oprócz standardowych wyników facetingu ma być dodany wpis o ilości dokumentów nie posiadających wpisu w danym polu. Parametr przyjmuje wartości true oraz false (wartość domyślna). Parametr może być definiowany dla poszczególnych pól przekazanych w parametrze facet.field.
  • facet.method – parametr wprowadzony w Solr 1.4, przyjmuje wartości enum oraz fc. Określa metodę wyliczania wartości facetingu. Ustawienie metody kryjącej się pod parametrem enum skutkuje wyliczeniem wszystkich termów w danym polu i wyliczeniem na tej podstawie wyników facetingu. Ta metoda wyliczenia okazuje się wydajna przy polach, które mają małą ilość unikalnych termów. Druga metoda oznaczona jako fc jest standardową metodą wyliczania facetingu dla pól jednowartościowych i polega na iterowaniu po wszystkich znalezionych dokumentach w celu wyliczenia wyników facetingu. Parametr może być definiowany dla poszczególnych pól przekazanych w parametrze facet.field. Domyślną wartością parametru jest fc dla wszystkich pól nie opartych o typ Boolean.
  • facet.enum.cache.minDf – parametr o dziwnie brzmiącej nazwie określający minimalną liczbę dokumentów pasujących do pojedynczego termu, aby dla tego termu użyć metody fc do wyliczania wyników facetingu. Wiem, że to brzmi pokrętnie, ale nie wiem czy da się prościej to wytłumaczyć 😉

Tak wyglądają parametry facetingu, z jakich możemy skorzystać w przypadku pierwszego rodzaju facetingu. W większości parametrów napisałem, iż możliwe jest definiowanie parametru dla poszczególnych pól. Jak to wygląda ? Załóżmy, że zadajemy następujące zapytanie do Solr:

q=solr&facet=true&facet.field=category&facet.field=location

Proste zapytanie o term 'solr’ z włączonym mechanizmem facetingu po dwóch polach – polu category oraz polu location. Chcielibyśmy, dla pola category pokazać 200 wyników facetingu posortowanych według liczności, a dla pola location pokazać 50 wyników facetingu posortowanych alfabetycznie. Aby to osiągnąć dodajemy do naszego zapytania następujący fragment:

facet.category.limit=200&facet.category.sort=count&facet.location.limit=50&facet.location.sort=index

W pokazany sposób możemy bez problemu modyfikować zachowanie mechanizmu facetingu dla poszczególnych pól dla których jest on wyliczany w ramach zapytania.

Faceting za pomocą zapytania

Metoda facetingu oparta tak naprawdę o jeden parametr – facet.query do którego podajemy zapytanie. Zapytanie musi być zapisane tak, aby standardowy parser Lucene był w stanie je zrozumieć. Przykładem wykorzystania tego parametru jest np. zapytanie o grupę cenową, które mogłoby wyglądać na przykład tak:

facet.query=price:[0+TO+100]

Należy jednak pamiętać, iż każdy dodany do zapytania parametr facet.query to kolejne zapytanie do Lucene, co oznacza spadek wydajności całego zapytania zadawanego do Solr.

W przypadku tej metody facetingu warto wspomnieć, iż istnieje możliwość zdefiniowania własnego parsera, który ma być użyty do przetworzenia zapytania przekazanego za pomocą parametru facet.query. Aby skorzystać na przykład z parsera o nazwie myParser przekazany parametr powinien wyglądać następująco:

facet.query={!myParser}aaa.

Faceting po datach

W wersji 1.3 Solr pojawiła się nowa funkcjonalność – faceting po datach. Pozwala na wyliczanie wyników facetingu z uwzględnieniem wszystkich zawiłości związanych z przetwarzaniem dat. Należy pamiętać, iż faceting po datach może być tylko wykorzystywany z polami opartymi o typ solr.DateField. Przejdźmy więc do opisania parametrów związanych z facetingiem po datach:

  • facet.date – podobnie jak parametr facet.field parametr ten służy do określenia pól, w których ma być przeprowadzany faceting po datach. Podobnie jak w przypadku parametru facet.field możliwe jest podanie tego parametru wielokrotnie, aby umożliwić faceting po datach na wielu polach w ramach jednego zapytania.
  • facet.date.start – parametr określający dolną granicę daty, czyli od której daty ma być rozpoczęte wyliczanie facetingu. Parametr może być definiowany dla poszczególnych pól przekazanych w parametrze facet.date. Parametr ten jest wymagany w przypadku korzystania z parametru facet.date.
  • facet.date.end – parametr określający górną granicę daty, czyli do której daty ma być zakończone wyliczanie facetingu. Parametr może być definiowany dla poszczególnych pól przekazanych w parametrze facet.date. Parametr ten jest wymagany w przypadku korzystania z parametru facet.date.
  • facet.date.gap – parametr określający przedziały dat, jakie mają być generowane dla zdefiniowanych granic. Parametr może być definiowany dla poszczególnych pól przekazanych w parametrze facet.date. Parametr ten jest wymagany w przypadku korzystania z parametru facet.date.
  • facet.date.hardend – parametr przyjmujący wartości true oraz false, określający co Solr ma zrobić w przypadku kiedy parametr facet.date.gap nie podzieli równo przedziałów pomiędzy zdefiniowanym początkiem, a końcem. Jeżeli ustawimy ten parametr na wartość true ostatni przedział może być większy od podanego w parametrze facet.date.end końca. W przypadku ustawienia na wartość false (która jest wartością domyślną) ostatni przedział dat może być mniejszy od pozostałych. Parametr może być definiowany dla poszczególnych pól przekazanych w parametrze facet.date.
  • facet.date.other – parametr określający jakie wartości oprócz tych wyliczonych dla określonych przedziałów mają być zawarte w wynikach facetingu. Parametr może być definiowany dla poszczególnych pól przekazanych w parametrze facet.date. Parametr może przyjmować następujące wartości:
    • before – oprócz przedziałów wyniki facetingu będą zawierać wyliczenia ilości dla dat mieszczących się przed granicą zdefiniowaną w parametrze facet.date.start,
    • after – oprócz przedziałów wyniki facetingu będą zawierać wyliczenia ilości dla dat mieszczących się za granicą zdefiniowaną w parametrze facet.date.end,
    • between – do wyników facetingu po datach zostanie dołączona informacja o licznościach w przedziale zdefiniowanym przez parametry facet.date.start oraz facet.date.end,
    • all – skrót określający, że dla danego pola mają zostać dodane trzy powyższe opcje,
    • none – wartość określająca, iż żadna dodatkowa informacja ma nie być dołączona do wyników facetingu.
  • facet.date.include – parametr, który zostanie wprowadzony w Solr 4.0. Parametr pozwala na domykanie, bądź otwieranie przedziałów zdefiniowanych przy pomocy parametrów facet.date.start oraz facet.date.end. Parametr będzie przyjmował następujące wartości:
    • lower – każdy z powstałych przedziałów będzie zawierał swoją dolną granicę,
    • upper – każdy z powstałych przedziałów będzie zawierał swoją górną granicę,
    • egde – pierwszy i ostatni przedział będą zawierały swoje zewnętrzne granice – czyli dolną dla pierwszego przedziału i górną dla ostatniego przedziału,
    • outer – parametr określający, iż przedziały zdefiniowane przez wartości before i after parametru facet.date.other będą zawierały swoje granice, nawet jeżeli inne przedziały zawierają już te granice,
    • all – parametr powodujący włączenie czterech powyższych opcji.

Tak przedstawiają się opcje facetingu po datach. Poniżej przykład wykorzystania tego rodzaju facetingu:

q=solr&facet=true&facet.date=addDate&facet.date.start=NOW/DAY-30DAYS&facet.date.end=NOW/DAY%2B30DAYS&facet.date.gap=%2B1DAY

Zajmijmy się facetingiem w tym zapytaniu – faceting po datach po polu o nazwie addDate. Jako dolną granicę ustawiamy datę o 30 dni wcześniejszą niż obecna, górna granica to data o 30 dni później, niż w chwili zadawania zapytania. Przedziały mają być wielkości jednego dnia.

Faceting po przedziałach

Funkcjonalność która dostępna będzie w Solr 3.1. Jeżeli ktoś chce już teraz ją testować, to zarówno trunk, jak i branch 3.x mają tą funkcjonalność zaimplementowaną. Ta metoda facetingu powstała jako rozszerzenie pomysłu facetingu po datach. Funkcjonalność działa analogicznie do facetingu po datach, czyli w wyniku działania dostajemy listę przedziałów skonstruowanych automatycznie na podstawie parametrów. Lista parametrów, jakie charakteryzują działanie mechanizmu:

  • facet.range – parametr określający po jakich polach ma być przeprowadzony faceting po przedziałach. Parametr może być przekazywany wielokrotnie.
  • facet.range.start – parametr określający dolną granicę przedziałów, czyli wartość od której ma być rozpoczęte wyliczanie facetingu. Parametr może być definiowany dla poszczególnych pól przekazanych w parametrze facet.range. Parametr ten jest wymagany w przypadku korzystania z parametru facet.range.
  • facet.range.end – parametr określający dolną granicę przedziałów, czyli wartość na której ma być skończone wyliczanie facetingu. Parametr może być definiowany dla poszczególnych pól przekazanych w parametrze facet.range. Parametr ten jest wymagany w przypadku korzystania z parametru facet.range.
  • facet.range.gap – parametr określający wielkość przedziałów, jakie mają być generowane dla zdefiniowanych granic. Parametr może być definiowany dla poszczególnych pól przekazanych w parametrze facet.range. Parametr ten jest wymagany w przypadku korzystania z parametru facet.range.
  • facet.range.hardend – parametr przyjmujący wartości true oraz false, określający co Solr ma zrobić w przypadku kiedy parametr facet.range.gap nie podzieli równo przedziałów pomiędzy zdefiniowanym początkiem, a końcem. Jeżeli ustawimy ten parametr na wartość true ostatni przedział może być większy od podanego w parametrze facet.range.end końca. W przypadku ustawienia na wartość false (która jest wartością domyślną) ostatni przedział może być mniejszy od pozostałych. Parametr może być definiowany dla poszczególnych pól przekazanych w parametrze facet.range.
  • facet.range.other – parametr określający jakie wartości oprócz tych wyliczonych dla określonych przedziałów mają być zawarte w wynikach facetingu. Parametr może być definiowany dla poszczególnych pól przekazanych w parametrze facet.range. Parametr może przyjmować następujące wartości:
    • before – oprócz przedziałów wyniki facetingu będą zawierać wyliczenia ilości dla przedziału mieszczących się przed granicą zdefiniowaną w parametrze facet.range.start,
    • after – oprócz przedziałów wyniki facetingu będą zawierać wyliczenia ilości dla przedziału mieszczących się za granicą zdefiniowaną w parametrze facet.range.end,
    • between – do wyników facetingu po rozdziałach zostanie dołączona informacja o licznościach w przedziale zdefiniowanym przez parametry facet.range.start oraz facet.range.end,
    • all – skrót określający, że dla danego pola mają zostać dodane trzy powyższe opcje,
    • none – wartość określająca, iż żadna dodatkowa informacja ma nie być dołączona do wyników facetingu po przedziałach.
  • facet.range.include – parametr pozwala na domykanie, bądź otwieranie przedziałów zdefiniowanych przy pomocy parametrów facet.range.start oraz facet.range.end. Parametr przyjmuje następujące wartości:
    • lower – każdy z powstałych przedziałów będzie zawierał swoją dolną granicę,
    • upper – każdy z powstałych przedziałów będzie zawierał swoją górną granicę,
    • egde – pierwszy i ostatni przedział będą zawierały swoje zewnętrzne granice – czyli dolną dla pierwszego przedziału i górną dla ostatniego przedziału,
    • outer – parametr określający, iż przedziały zdefiniowane przez wartości before i after parametru facet.date.other będą zawierały swoje granice, nawet jeżeli inne przedziały zawierają już te granice,
    • all – parametr powodujący włączenie czterech powyższych opcji.

Jak widać parametry facetingu po przedziałach są prawie identyczne, jak w przypadku facetingu po datach. Działanie jest także analogiczne. Przykładem zapytania z wykorzystaniem facetingu po datach może być następujące zapytanie:

q=solr&facet=true&facet.range=price&facet.range.start=0&facet.range.end=1000&facet.range.gap=100

Tak przeszliśmy przez wszystkie rodzaje facetingu. Jednak to jeszcze nie wszystko. Użytkownicy Solr w wersji 1.4 i wyższych mają możliwość korzystania z tzw. LocalParams wraz z facetingiem.

LocalParams i faceting

Załóżmy takie wymaganie. Mamy zapytanie, które zwraca wyniki wyszukiwania dla słowa solr oraz, które ma zdefiniowane dwa filtry jeden dla kategorii, a drugi dla kraju z którego pochodzi dokument. Oprócz wyników wyszukiwania chcemy umożliwić, w ramach wyników wyszukiwania, nawigację po regionach oraz po kategoriach, ale chcielibyśmy, aby liczności nie były od siebie zależne. To znaczy chcielibyśmy dać możliwość nawigacji po regionach dla słowa solr, ale nie zawężonych do wybranej kategorii, oraz po kategorii, ale nie zawężonej do wybranego regionu. Żeby zrobić to w Solr w wersji 1.3 lub wcześniejszej, należałoby napisać następujące zapytania:

q=solr&fq=category:search&fq=region:poland
q=solr&facet=true&facet.field=category&facet.field=region

Dwa zapytania dlatego, że po pierwsze musimy pobrać zawężone wyniki wyszukiwania, a z drugiej strony potrzebujemy niezawężonych wyników wyszukiwania po to, aby pobrać wymagane liczności za pomocą facetingu.

W przypadku Solr w wersji 1.4 lub wyższej mamy możliwość skrócenia tego do jednego zapytania. Do tego celu wykorzystamy możliwość tagowania i wykluczania tagowanych parametrów. Pierwsze zapytanie zmieniamy w następujący sposób:

q=solr&fq={!tag=categoryFQ}fq=category:search&fq={!tag=regionFQ}region:poland

Na razie wyniki wyszukiwania się nie zmienią. Do powyższego zapytania zostały dodane tagi nadające nazwę każdemu z wykorzystywanych filtrów po to, abyśmy mogli wykluczyć je w facetingu.

Drugie zapytanie modyfikujemy w następujący sposób:

q=solr&facet=true&facet.field={!ex=categoryFQ,regionFQ}category&facet.field={!ex=categoryFQ,regionFQ}region

Tutaj także na razie wyniki facetingu nie uległy zmianie. Dodaliśmy do facetingu wykluczenia, które mówią o tym, że filtry o nazwach categoryFQ oraz regionFQ mają nie być brane pod uwagę przy wyliczaniu wyników facetingu.

Tak zmodyfikowane zapytanie łączymy w jedno, które powinno wyglądać następująco:

q=solr&fq={!tag=categoryFQ}fq=category:search&fq={!tag=regionFQ}region:poland&facet=true&facet.field={!ex=categoryFQ,regionFQ}category&facet.field={!ex=categoryFQ,regionFQ}region

Więcej o LocalParams napiszę w jednym z kolejnych wpisów.

Kilka słów na koniec

Mam nadzieję, że tym artykułem przybliżyłem możliwości wykorzystania facetingu w Solr, zarówno w starszych wersjach, w tej obecnej, jak i tych, które pojawią się w przyszłości.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *