Rafał Andrzejewski – Solr.pl

Aplikacja „sprzedaż samochodów” – solr.ReversedWildcardFilter, czyli optymalizujemy zapytania wildcard (cz. 8)

Rafał Andrzejewski — Mon, 10 Oct 2011 19:28:21 +0000

Użytkownicy aplikacji „sprzedaż samochodów” zaczęli coraz częściej używać zapytań ze znakami wildcard. Zmusiło nas to do zastanowienia się nad optymalizacją takich zapytań, a na pomoc przyszedł filtr solr.ReversedWildcardFilter.

solr.ReversedWildcardFilter

Filtr solr.ReversedWildcardFilter dostarcza nam do indeksu nowe tokeny, które są niejako odwróceniem tokenów w danym polu. Tokeny takie są wykorzystywane podczas wyszukiwania, w celu przyspieszenia zadawania zapytań, w których „dzikie karty” są na początku wyrażenia. Na poziomie konfiguracji filtr dostarcza nam następujące argumenty:

withOriginal – jeżeli „true”, to generuj na tej samej pozycji zarówno tokeny oryginalne, jak i odwrócone. Jeżeli „false”, to generuj jedynie tokeny odwrócone.
maxPosAsterisk – maksymalna pozycja „dzikiej karty” „*”, która uaktywnia korzystanie przez filtr z tokenów odwróconych. Jeżeli „*” pojawi się w zapytaniu na pozycji wyższej niż skonfigurowana, wtedy filtr nie będzie korzystał z tokenów odwróconych.
maxPosQuestion – maksymalna pozycja „dzikiej karty” „?”, która uaktywnia korzystanie przez filtr z tokenów odwróconych.
maxFractionAsterisk – dodatkowy parametr, który uaktywnia korzystanie z tokenów odwróconych, jeżeli pozycja „*” jest mniejsza niż skonfigurowana w tym parametrze wartość ułamkowa długości tokena zapytania.
minTrailing – minimalna liczba znaków występujących po ostatniej „dzikiej karcie” w zapytaniu, która uaktywni nam korzystanie z tokenów odwróconych. W celach wydajnościowych zaleca się, aby wartość ta była większa niż 1.

Zmiany w schema.xml

Nowy filtr dodajemy do definicji typu „text” w następujący sposób:

Filtr solr.ReversedWildcardFilter wykorzystujemy tylko na etapie indeksacji. Nie definiujemy żadnych argumentów w filtrze, ponieważ chcemy skorzystać ze standardowej konfiguracji, czyli wartości argumentów tego filtra domyślnie będą wyglądać tak:

withOriginal – „true”, chcemy również mieć dostępne tokeny oryginalne, aby móc dalej korzystać z wyszukiwania bez „dzikich kart” po polach tego typu
maxPosAsterisk – 2
maxPosQuestion – 1
maxPosQuestion – 0.0f (czyli funkcjonalność wyłączona)
maxPosQuestion – 2

Przykładowe dane

Zaindeksujmy przykładowe dane do analizy:


  
    1
    Lancia
    Delta
    ...
  
  
    2
    Land Rover
    Defender
    ...
  
  
    3
    Acura
    MDX
    ...
  
  
    4
    Acura
    RDX
    ...
  
  
    5
    Acura
    RSX
    ...

Tworzymy zapytania

Przypomnijmy, że domyślne wyszukiwanie odbywa się po polu „content”, w skład którego wchodzą między innymi pola „make” oraz „model”. W celach analizy wyników i działania filtra solr.ReversedWildcardFilter, ustawimy atrybut „stored” pola „content” na „true”. Dodamy również do zapytania argument debugQuery, który umożliwi nam obserwacje, z którego tokena (oryginalnego, czy odwróconego) korzysta filtr.

?q=lan*&fl=id,content&debugQuery=on


  
    
      Lancia
      Delta
      2002
    
    1
  
  
    
      Land Rover
      Defender
      2002
    
    2
  


  lan*
  lan*
  content:lan*
  content:lan*
  ...

Użyliśmy „dzikiej karty” „*” na końcu zapytania (pozycja = 4), zatem filtr do wyszukiwania użył tokenów oryginalnych:

content:lan*

?q=*dx&fl=id,content&debugQuery=on
```
  
    
      Acura
      MDX
      2002
    
    3
  
  
    
      Acura
      RDX
      2003
    
    4
  


  *dx
  *dx
  content:#1;xd*
  content:#1;xd*
  ...
```
Użyliśmy „dzikiej karty” „*” na początku zapytania (pozycja = 1) i dodatkowo mamy jeszcze dwa znaki po ostatniej „dzikiej karcie”. Filtr użył zatem tokenów odwróconych:
```
content:#1;xd*
```
Jak widzimy, tokeny odwrócone są w indeksie poprzedzone specjalnym prefixem, aby nie doszło do wyszukania nieprawidłowych dokumentów.

?q=r?x&fl=id,content&debugQuery=on


  
    
      Acura
      RDX
      2003
    
    4
  
  
    
      Acura
      RSX
      2006
    
    5
  


  r?x
  r?x
  content:r?x
  content:r?x
  ...

Użyliśmy „dzikiej karty” „?” na pozycji 2 oraz dodatkowo mamy tylko jeden znak występujący po ostatniej „dzikiej karcie”. Zatem filtr do wyszukiwania użył tokenów oryginalnych:

content:r?x<

Podsumowanie

Dzięki filtrowi solr.ReversedWildcardFilter zoptymalizowaliśmy zapytania z „dzikimi kartami”, zatem nasi użytkownicy mogą teraz efektywnie z takich zapytań korzystać

Aplikacja „sprzedaż samochodów” – Result Grouping, dodanie kolejnych dwóch parametrów (cz. 7)

Rafał Andrzejewski — Mon, 01 Aug 2011 19:18:49 +0000

W poprzednim poście z tej serii opisaliśmy funkcjonalność grupowania wyników wyszukiwania. Dzisiaj chciałbym pokazać jak łatwo możemy ustalić ilość wygenerowanych grup i jak sortować dokumenty wewnątrz grupy.

Specyfikacja wymagań

Chciałbym stworzyć zapytanie grupujące, które w odpowiedzi pokaże mi ilość wygenerowanych grup, oraz dostarczy po jednym dokumencie w każdej grupie – dokumencie określającym auto o najniższej cenie w swojej grupie rocznikowej.

Opis parametrów requestu nowej funkcjonalności

Potrzebujemy następujących parametrów:

group.ngroups – parametr typu logicznego, który pozwoli nam na zawarcie w odpowiedzi ilości wygenerowanych grup
group.sort – parametr opisujący sposób sortowania dokumentów wewnątrz grupy

Tworzymy zapytanie

Posługując się zapytaniem z poprzedniego postu, dodajemy dwa nowe parametry:

?q=audi+a4&group=true&group.field=year_group&group.limit=1&fl=id,mileage,make,model,year,price&group.ngroups=true&group.sort=price+asc

Zauważmy, że poza dodaniem parametrów group.ngroups oraz group.sort, ustawiliśmy także wartość parametru group.limit na 1 (tak abyśmy otrzymali tylko jeden dokument w każdej grupie) oraz dodaliśmy do parametru fl pole określające cenę auta. W rezultacie otrzymujemy:

W odpowiedz pojawił nam się nowy element, określający ilość wygenerowanych grup:

W każdej grupie rocznikowej mamy po jednym dokumencie, jest to auto o najniższej cenie w swojej grupie. Nie wierzysz ? Przeanalizuj odpowiedzi zawarte w poprzednim poście i porównaj ceny

Podsumowanie

Był to szybki przegląd dwóch nowych parametrów powiązanych z funkcjonalnością grupowania wyników. Duże podziękowania dla Davida Martina za dostarczenie mi tematu poprzez dyskusję na temat poprzedniego postu

Aplikacja „sprzedaż samochodów” – Result Grouping, czyli grupowanie wyników wyszukiwania (cz. 6)

Rafał Andrzejewski — Mon, 04 Jul 2011 19:12:42 +0000

W dzisiejszym poście postaramy się dodać do naszej aplikacji sprzedaży samochodów kolejną funkcjonalność, która będzie polegała na grupowaniu wyników wyszukiwania. Wyobraźmy sobie sytuację, że użytkownik chciałby na zapytanie „Audi A4” otrzymać wyniki pogrupowane np. po roku produkcji, tak aby widział po 2-3 wyniki wyszukiwania dla każdego roku. A może grupowanie po zakresach przebiegu auta ? Zajmijmy się tym tematem.

Opis parametrów requestu nowej funkcjonalności

Funkcjonalność grupowania wyników wyszukiwania jest dostępna od wersji solr 3.3. Przyjrzyjmy się podstawowym parametrom requestu, jakich będziemy potrzebowali:

group – włącza/wyłącza grupowanie wyników
group.field – nazwa pola, po którym chcemy pogrupować wyniki. Musimy zadbać o to aby pole, po którym chcemy grupować (rok produkcji), było w postaci tekstowej i nie było polem wielokrotnym
group.query – zapytanie, które użyjemy w celu pogrupowania wyników po zakresie przebiegu auta
group.limit – limit wyników wyszukiwania w każdej z grup

Te cztery podstawowe parametry pozwolą nam na zrealizowanie założeń.

Zmiany w schema.xml

Ewentualne zmiany w pliku schema.xml będą polegały na zadbaniu, aby pola, po których chcemy grupować wyniki wyszukiwania, było w postaci „string” lub „text”. Nasze wyniki chcielibyśmy grupować po polu „rok produkcji”. Dla przypomnienia, reprezentacja tego pola w tym momencie wygląda tak:

czyli jest to pole typu całkowitoliczbowego. W celu umożliwienia grupowania po tym polu tworzymy kolejne pole, które będzie odpowiednikiem pola „year”, ale w postaci tekstowej:

i kopiujemy zawartość pola „year” do pola „year_group”:

To praktycznie wszystkie zmiany jakie musimy dokonać w pliku konfiguracyjnym schema.xml.

Przykładowe dane

Stwórzmy teraz przykładowe dane w celu przetestowania nowej funkcjonalności. Załóżmy że mamy próbkę danych aut o marce Audi i modelu A4. Dwa z nich są z rocznika 2002, kolejne dwa z rocznika 2003 oraz jeden z rocznika 2006. Dodatkowo, jedno z aut ma przebieg poniżej 100 000 km, trzy mają przebieg od 100 000 do 199 999 km i jedno auto które ma przebieg co najmniej 200 000 km:


   
      1
      Audi
      A4
      2002
      22700
      1900
      197000
      green
      false
      Koszalin
      54.12,16.11
   
   
      2
      Audi
      A4
      2003
      27800
      1900
      220000
      black
      false
      Bialystok
      53.08,23.09
   
   
      3
      Audi
      A4
      2002
      21300
      1900
      125000
      black
      false
      Szczecin
      53.25,14.35
   
   
      4
      Audi
      A4
      2003
      30300
      1900
      150000
      red
      false
      Gdansk
      54.21,18.40
   
  
      5
      Audi
      A4
      2006
      32100
      1900
      9900
      red
      false
      Swidnik
      52.15,21.00

Tworzymy zapytania

Wykorzystując parametry opisane na początku artykułu, tworzymy zapytanie, które zwróci nam wyniki wyszukiwania dla zapytania „Audi A4” pogrupowane po roku produkcji auta:

?q=audi+a4&group=true&group.field=year_group&group.limit=2&fl=id,mileage,make,model,year

Jak widać, ograniczyliśmy nasze wyniki wyszukiwania do maksymalnie dwóch w każdej z grup. Wypiszemy sobie w response jedynie te pola, które dadzą nam czytelny obraz identyfikacji dokumentów, czyli identyfikator, przebieg, marka, model oraz rok produkcji. W rezultacie otrzymujemy w response:

Przeanalizujmy sobie odpowiedź. Na dane zapytanie otrzymaliśmy 5 trafień:

Odpowiedź została podzielona na 3 niezależne grupy:

```
2002
```
w której znalazły się dwa dokumenty (numFound=”2″), czyli auta z rocznika 2002
```
2003
```
w której znalazły się dwa dokumenty (numFound=”2″), czyli auta z rocznika 2003
```
2006
```
w której znalazł się jeden dokument (numFound=”1″), czyli auto z rocznika 2006

Zgadza się!

Skonstruujmy teraz zapytanie, które pogrupuje nam wyniki wyszukiwania po zakresie przebiegu samochodu. Zakładamy 3 zakresy:

<0km ; 99999km>
<100000km ; 199999km>
<200000km ; * >

Zapytanie:

?q=audi+a4&group=true&group.query=mileage:[0+TO+99999]&group.query=mileage:[100000+TO+199999]&group.query=mileage:[200000+TO+*]&group.limit=3&fl=id,mileage,make,model,year

Dostajemy odpowiedź:

Ponownie otrzymaliśmy 5 wyników. W pierwszej grupie znalazło się auto o przebiegu 9900 km, w drugiej grupie auta o przebiegach 197000 km, 125000 km oraz 150000 km, a w trzeciej auto o największym przebiegu, czyli 220000 km.
Otrzymaliśmy to co chcieliśmy osiągnąć. Zadanie wykonane.

Podsumowanie

Kolejna funkcjonalność, tym razem związana z grupowaniem wyników wyszukiwania, została dodana do naszej aplikacji sprzedaży samochodów. Zobaczymy jak zareagują na nią klienci

Aplikacja „sprzedaż samochodów” – SpellCheckComponent – czy naprawdę miałeś to na myśli ? (cz. 5)

Rafał Andrzejewski — Mon, 23 May 2011 17:46:02 +0000

Nadszedł czas, abyśmy dodali do naszej aplikacji sprzedaży samochodów kolejną ważną funkcjonalność. Będzie to mechanizm sprawdzania poprawności wpisanej frazy wyszukiwania oraz podpowiadania frazy poprawnej. Funkcjonalność ta stała się już standardem we wszystkich silnikach wyszukiwania, zatem i my zrobimy z niej użytek.

Analiza wymagań

Nasza baza samochodów jest już tak duża, że zawiera nazwy marek i modeli, których poprawne napisanie może sprawiać naszym klientom problemy, np:

- marka: Bugatti
- model: Veyron
- marka: Daewoo
- model: Lacetti
- marka: Cadillac
- model: Brougham
- marka: Ford
- model: Capri
- marka: Maserati
- model: Coupe

Przykłady zapytań, które zwróciły 0 wyników, ze względu na niepoprawnie wpisane nazwy (frazy):

?q=bugati+weyron
?q=daewo+laceti
?q=cadilac+brogham
?q=ford+kapri
?q=maseratti+coupe

Chcemy dodać funkcjonalność, która przy niepoprawnie wpisanych nazwach podpowie nam frazę, którą najprawdopodobniej klient miał na myśli, a której zastosowanie pozwoli nam wyszukać dokumenty związane z tą frazą.

Zmiany w solrconfig.xml

Najważniejszym elementem, który musimy dodać do pliku konfiguracyjnego solrconfig.xml jest komponent wykorzystujący klasę solr.SpellCheckComponent. Spróbujemy wykorzystać najprostszą, standardową konfigurację tego komponentu i przekonamy się, jak jego działanie sprawdzi się w praktyce:


    
      solr.IndexBasedSpellChecker
      ./spellchecker
      content
      true

Wyjaśnijmy sobie co znaczą poszczególne atrybuty:

- classname – klasa która jest implementacją naszego mechanizmu podpowiadania poprawnej frazy wyszukiwania. Wykorzystujemy klasę solr.IndexBasedSpellChecker, która jako źródło podpowiedzi wykorzystuje indeks solr.
- spellcheckIndexDir – katalog, w którym przechowywany będzie indeks mechanizmu popowiedzi.
- field – nazwa pola zdefiniowanego w pliku schema.xml, wykorzystywanego jako pole źródłowe do generowania indeksu dla mechanizmu podpowiedzi. W naszym przypadku będzie to pole o nazwie „content”, co zostanie uzasadnionej później.
- buildOnCommit – jeżeli atrybut ten będzie ustawiony na wartośc true, to indeks mechanizmu podpowiedzi zostanie automatycznie wygenerowany przy każdym uaktualnieniu (commit) indeksu solr.

Mamy już zdefiniowany komponent, zatem teraz należy go wykorzystać w którymś z handler’ów, aby można było się do niego odwoływać. Najlepiej dodać go do handler’a, którego domyślnie używamy do wyszukiwania dokumentów. W ten sposób będziemy mogli za pomocą tylko jednego żądania otrzymywać wyniki wyszukiwania wraz z podpowiedzią. Przed uaktualnieniem, nasz domyślny handler wyglądał tak:


     
       explicit

Po zmianie, wygląda tak:


     
       explicit
       true
       true
     
     
       spellcheck

Jak widać, oprócz naszego komponentu spellcheck, dodaliśmy również dwie domyślne wartość wykorzystywane w zapytaniach:

- spellcheck – ustawienie wartości na true powoduje że dla każdego requestu nastąpi próba wygenerowania podpowiedzi.
- spellcheck.collate – ustawienie wartości na true powoduje że mechanizm wybiera najlepszą podpowiedź dla każdego wyrazu i konstruuje nowe zapytanie składające się z tych podpowiedzi. Jeżeli mechanizm uzna, że dany wyraz jest poprawny, zostawia go w niezmienionej postaci.

Zmiany w schema.xml

Ewentualne zmiany w pliku schema.xml będą polegały na dodaniu pola, wykorzystywanego przez komponent solr.SpellCheckComponent jako źródło danych do generowania indeksu dla mechanizmu podpowiedzi. Pole takie powinno zawierać wszystkie informacje, jakie chcielibyśmy aby było użyte przy tworzeniu indeksu dla mechanizmu podpowiedzi. Typ takiego pola powinien zapewniać odpowiednią tokenizację indeksowanych danych, jak i być pozbawionym wszelkich filtrów używających stemmingu czy lametyzacji, co by mogło niekorzystnie wpłynąć na wyniki podpowiedzi.

Nasza schema posiada już pole spełniające wszystkie te wymaganie, a nazywa się „content”. Dla przypomnienia, jest to pole domyślne, po którym realizowane jest wyszukiwanie przez silnik solr. Przypomnijmy sobie aktualną definicję tego pola, jak i jego typu:

Do pola „content” kopiowane są wartości z pól marki, modelu i roku:

Tworzymy zapytania

Wykorzystamy zapytania z analizy wymagań, które nie zwróciły nam żadnych wyników, dodając parametr spellcheck.q, gdzie wpisujemy tę samą frazę co dla parametru q. W ten sposób, za pomocą jednego zapytania zwrócimy wyniki wyszukiwania wraz z wynikami mechanizmu podpowiedzi:

?q=bugati+weyron&spellcheck.q=bugati+weyron

?q=daewo+laceti&spellcheck.q=?q=daewo+laceti



  
    
      1
      0
      5
      
        daewoo
      
    
    
      1
      6
      12
      
        lacetti
      
    
      daewoo lacetti

?q=cadilac+brogham&spellcheck.q=cadilac+brogham



  
    
      1
      0
      7
      
        cadillac
      
    
    
      1
      8
      15
      
        brougham
      
    
      cadillac brougham

?q=ford+kapri& spellcheck.q=?q=ford+kapri

?q=maseratti+coupe&spellcheck.q=?q=maseratti+coupe



  
    
      1
      0
      9
      
        maserati
      
    
      maserati coupe

Mechanizm spellcheck zadziałał dla naszych przypadków perfekcyjnie, poprawiając błędnie wpisane wyrazy i generując poprawne zapytanie. W dwóch ostatnich przypadkach (4,5) możemy zaobserwować że mechanizm nie wygenerował podpowiedzi dla poprawnie wpisanych wyrazów (4 – ford, 5 – coupe) lecz wykorzystał je do złożenia poprawnego zapytania (collation).

Podsumowanie

Nasz silnik wyszukiwania został wzbogacony o funkcjonalność sprawdzania poprawności wpisanej frazy. Zostało nam czekać na opinie klientów … i być może jakieś uwagi.

Aplikacja „sprzedaż samochodów” – Unicode Collation, czyli sortowanie wyników wyszukiwania uwzględniając język danych (cz. 4)

Rafał Andrzejewski — Mon, 11 Apr 2011 17:40:09 +0000

W trzeciej części cyklu dodaliśmy dane lokalizacyjne oraz informacje o miejscowości, z którego pochodzi auto. Wkrótce potem dodaliśmy również możliwość sortowania po miejscowości, w prosty sposób modyfikując schemę:

...

Okazało się jednak, że sortowanie po miejscowości (pole city_sort) nie funkcjonuje tak jak powinno, a wszystko ze względu na występowanie w nazwach miast polskich znaków. Co z tym zrobić ?

Analiza wymagań

Sprawdźmy, czy faktycznie sortowanie po polu „city_sort” nie uwzględnia polskich znaków. Zadajmy zapytanie:

q=*:*&fl=city&sort=city_sort+asc

Otrzymujemy rezultat:


   
      Białystok
   
   
      Koszalin
   
   
      Szczecin
   
   
      Warszawa
   
   
      Świdnik
   
   
      Łowicz

Rzeczywiście, wyniki nie są posortowane poprawnie. Oczekiwaliśmy takiego rezultatu:


   
      Białystok
   
   
      Koszalin
   
   
      Łowicz
   
   
      Szczecin
   
   
      Świdnik
   
   
      Warszawa

W celu usprawnienia sortowania danych zawierających polskie znaki wykorzystamy filtr „solr.CollationKeyFilter”.

solr.CollationKeyFilter

Filtr solr.CollationKeyFilter jest wykorzystywany podczas indeksowania, dodając do indeksu specjalne „klucze sortujące”. Pozwala nam na wskazanie kolatora powiązanego z konkretnym krajem i językiem. Możemy również określić „siłę” kolatora, która definiuje pewien minimalny poziom różnic jaki jest brany pod uwagę przy porównywaniu. Przykład:

Powyższy przykład jest definicją fabryki dla filtra solr.CollationKeyFilter, określającego kolator dla języka hiszpańskiego z siłą primary.

Zmiany w schema.xml

Definicja nowych typów pól:
Zmiana definicji pola „city_sort”:
- zmieniamy typ dla pola „city_sort” na nowo zdefiniowany typ „polishLowercase”:

Testy funkcjonalności

Zanim przetestujemy, czy zmiana typu pola przyniosła oczekiwany rezultat, pamiętajmy, że filtr solr.CollationKeyFilter wykorzystywany w tym typie działa na etapie indeksacji. Należy zatem wykonać pełną reindeksację danych.

Sprawdźmy teraz wynik zapytania, które wykorzystaliśmy wcześniej do przetestowania jakości sortowania:

q=*:*&fl=city&sort=city_sort+asc

Jak się okazuje, otrzymujemy oczekiwany wcześniej, poprawny rezultat:


   
      Białystok
   
   
      Koszalin
   
   
      Łowicz
   
   
      Szczecin
   
   
      Świdnik
   
   
      Warszawa

Podsumowanie

Kolejny zgłoszony problem został pomyślnie rozwiązany. Usprawniliśmy jakość wyników sortowania po polskich znakach, wykorzystując nieskomplikowany, ale jakże pomocny filtr solr.CollationKeyFilter. Czekamy na dalsze zgłoszenia

Aplikacja „sprzedaż samochodów” – Spatial Search, czyli wprowadzenie danych lokalizacyjnych (cz. 3)

Rafał Andrzejewski — Mon, 14 Mar 2011 08:13:38 +0000

Ilość ogłoszeń w naszej bazie rozrosła się do tego stopnia, że klienci zaproponowali dodanie nowej opcji przy filtrowaniu wyników wyszukiwania oraz nowej opcji sortowania. Mianowicie musimy dodać funkcjonalność, która pozwoli nam operować na danych związanych z lokalizacją auta w danym ogłoszeniu.

Analiza wymagań

Chcemy dodać dwie nowe funkcjonalności:

Zawężanie wyników wyszukiwania w taki sposób, aby możliwe było wyświetlenie tylko tych aut, które są położone nie dalej niż x kilometrów od określonego miejsca, gdzie x = 50,100,200,500,1000 km.
Sortowanie wyników wyszukiwania po odległości pomiędzy danym punktem, a lokalizacją auta z danego ogłoszenia.

W celu realizacji powyższych zadań, skorzystamy z funkcjonalności solr zwanej „Spatial Search”, która dostępna jest od wersji 3.1. Zmiany, które będziemy musieli wprowadzić, dotyczyć będą modyfikacji pliku schema.xml oraz danych wejściowych, do których dodamy informację o położeniu geograficznym każdego z aut. Na końcu zostanie nam już tylko odpowiednie złożenie zapytań.

Zmiany w schema.xml

Definicja nowych typów pól:
- pierwsza definicja to nic innego jak kolejny typ liczbowy – double:
- druga definicja zaś wykorzystuje specjalną klasę „solr.LatLonType”, która pozwoli nam na zaindeksowanie danych geograficznych wykorzystując pole dynamiczne o suffixie „_coordinate”:
Definicja nowych pól:
- pole, które będzie wykorzystywane do gromadzenia informacji o nazwie miejscowości, z którego pochodzi auto:
- pole „loc” posłuży nam do zaindeksowania danych lokalizacyjnych:
- pole dynamiczne będzie wykorzystywane wewnętrznie do gromadzenia informacji, które wprowadzimy do pola „loc”:

Analiza danych wejściowych

W celu prezentacji sposobu modyfikacji nowych danych, weźmy próbkę 5-ciu ogłoszeń z miast:

Koszalin
- szerokość geograficzna: 54.12
- długość geograficzna: 16.11
Białystok
- szerokość geograficzna: 53.08
- długość geograficzna: 23.09
Szczecin
- szerokość geograficzna: 53.25
- długość geograficzna: 14.35
Gdańsk
- szerokość geograficzna: 54.21
- długość geograficzna: 18.40
Warszawa
- szerokość geograficzna: 52.15
- długość geograficzna: 21.00

Dane lokalizacyjne wprowadzamy do pola „loc” wpisując szerokość geograficzną danego miasta oraz po przecinku jego długość. Nasze dane mogą wyglądać zatem tak:


   
      1
      Audi
      80
      2008
      9774
      2000
      92467
      green
      false
      Koszalin
      54.12,16.11
   
   
      2
      Audi
      A8
      2009
      9078
      1000
      31369
      black
      false
      Białystok
      53.08,23.09
   
   
      3
      Audi
      TT
      1997
      1109
      1299
      116987
      silver
      true
      Szczecin
      53.25,14.35
   
   
      4
      BMW
      Seria 7
      2007
      140000
      3000
      418000
      green
      false
      Gdańsk
      54.21,18.40
   
   
      5
      Chevrolet
      TrailBlazer
      2007
      140000
      3000
      418000
      green
      false
      Warszawa
      52.15,21.00

Tworzymy zapytania

Dane lokalizacyjne mamy w indeksie, zatem zostało nam już tylko złożyć odpowiednie zapytania, które zrealizują nasze nowe funkcjonalności. Załóżmy, że będziemy wyszukiwać ogłoszenia znajdując się w mieście Białystok, które jest położone w odległości ok. 200 km od miasta Warszawa, ok. 400 km od miasta Gdańsk, ok. 550 km od miasta Koszalin oraz ok. 650 km od miasta Szczecin.

W celu realizacji punktu 1 z analizy wymagań, dodajemy do żądania nowe zapytanie filtrujące:

...&fq={!geofilt sfield=loc}&pt=53.08,23.09&d=50

gdzie:

sfield – nazwa pola, do którego wprowadzaliśmy nasze dane lokalizacyjne.
pt – współrzędne punktu startowego, w naszym wypadku są to współrzędne miasta Białystok.
d – dystans o jaki chcemy zawęzić wyniki wyszukiwania. Podstawiając kolejno wartości 50,100,200,500,1000 możemy zrealizować nasze wymagania.

Przykład:

Zapytanie:

q=*:*&fq={!geofilt sfield=loc}&pt=53.08,23.09&d=200

Wyniki wyszukiwania:


   
      Białystok
      black
      false
      1000
      2
      Audi
      31369
      A8
      9078.0
      2009
   
   
      Warszawa
      green
      false
      3000
      5
      Chevrolet 
      418000
      TrailBlazer
      140000.0
      2007

Świetnie, w wynikach nie mamy ogłoszeń z miast Koszalin, Gdańsk oraz Szczecin, gdyż te miasta leżą w odległości ponad 200 km od miasta Białystok.

W celu realizacji punktu 2 z analizy wymagań, wykorzystamy możliwość sortowania wyników wyszukiwania z użyciem funkcji geodist. Tworzymy następujące zapytanie:

...&sfield=loc&pt=53.08,23.09&sort=geodist()+desc

Przykład sortowania wyników wyszukiwania po odległości, rozpoczynając od miasta Białystok:

Zapytanie:

q=*:*&sfield=loc&pt=53.08,23.09&sort=geodist()+asc

Wyniki wyszukiwania:


   
      Białystok
      black
      false
      1000
      2
      Audi
      31369
      A8
      9078.0
      2009
   
   
      Warszawa
      green
      false
      3000
      5
      Chevrolet 
      418000
      TrailBlazer
      140000.0
      2007
   
   
      Gdańsk
      green
      false
      3000
      4
      BMW
      418000
      Seria 7
      140000.0
      2007
   
   
      Koszalin
      green
      false
      2000
      1
      Audi
      92467
      80
      9774.0
      2008
   
   
      Szczecin
      silver
      true
      1299
      3
      Audi
      116987
      TT
      1109.0
      1997

Zgadza się! Wymagania zostały zrealizowane.

Podsumowanie

Po raz kolejny udało nam się sprostać oczekiwaniom naszych klientów. Tym razem dodaliśmy funkcjonalności związane z lokalizacją geograficzną aut, które pozwolą użytkownikom na zawężanie oraz sortowanie wyników wyszukiwania wykorzystując odległości geograficzne. Pełen sukces.

Aplikacja „sprzedaż samochodów” – projektowanie schema.xml dla naszych potrzeb (cz. 1)

Rafał Andrzejewski — Mon, 31 Jan 2011 08:01:46 +0000

Podstawowym plikiem konfiguracyjnym solr, który jest niejako łącznikiem pomiędzy tym czego potrzebujemy, a tym co rozumie solr, jest plik schema.xml. Dobre zaprojektowanie schema.xml jest głównym czynnikiem warunkującym poprawne funkcjonowanie wyszukiwarki, która będzie w stanie zrealizować wszystkie wymagania, jakie przed nią stawiamy. Zacznijmy zatem kolejny cykl artykułów, poświęconych projektowaniu pliku schema.xml jak i również wszystkich składników wchodzących w skład zdefiniowanych przez nas typów pól.

Analiza wymagań

Wyobraźmy sobie, że chcemy wykorzystać silnik solr w celu dodania wyszukiwarki ogłoszeń samochodowych do naszego serwisu. Serwis nasz jest w tym momencie dosyć prymitywny i przetrzymuje podstawowe informacje opisujące właściwości każdego wystawionego na sprzedaż samochodu:

marka
model
rok produkcji
cena
pojemność
przebieg
kolor
czy uszkodzony

Chcielibyśmy w tym momencie zaprojektować najprostszy plik konfiguracyjny, który pomoże odpowiednio zaindeksować dane z powyższych pól. Zanim jednak przystąpimy do rzeźbienia pliku schema.xml, odpowiedzmy sobie na siedem podstawowych pytań, dotyczących każdego z tych pól:

1. Jaki typ ?

Ustalamy typ każdego pola:

marka – pole tekstowe
model – pole tekstowe
rok produkcji – pole liczbowe
cena – pole liczbowe, zmiennoprzecinkowe
pojemność – pole liczbowe
przebieg – pole liczbowe
kolor – pole tekstowe
czy uszkodzony – pole logiczne

Co nam to mówi ?

Będziemy potrzebowali definicji typów: string, boolean, int, float.

2. Czy po polu ma się odbywać wyszukiwanie ?

Ustalamy, z których pól będą wykorzystywane informacje, w celu znalezienia odpowiednich ogłoszeń samochodowych. W naszym serwisie będą to 3 pola: marka, model oraz rok produkcji.

Co nam to mówi ?

Pewnie będziemy potrzebowali kolejnego typu pola, który będzie poddawany działaniu różnych filtrów, zwiększających nasze szanse znalezienia interesującego nas dokumentu. Stworzymy sobie dodatkowe pole tego typu, po którym będziemy wyszukiwać i wrzucimy tam dane z wszystkich 3 powyższych pól.

3. Czy sortowalne lub grupowalne ?

Serwis nasz przewiduje sortowanie wyników wyszukiwania po polach: model, rok produkcji, cena oraz przebieg. Chcielibyśmy również móc grupować wyniki wyszukiwania (faceting) po polach marka, model, rok produkcji oraz kolor.

Co nam to mówi ?

Pola tekstowe, po których sortujemy lub grupujemy nie powinny być poddawane działaniu filtrów, które mogą nam rozdzielić na tokeny wartości w tych polach. Zależy nam jednak na tym, aby wszystkie wartości były zapisane małymi literami, tak aby wielkość liter nie wpływała na sortowanie czy też grupowanie. Będzie trzeba stworzyć nowy typ pola, który nam to umożliwi.

4. Czy wykorzystywane przy filtrowaniu ?

Na stronie wyszukiwania ogłoszeń chcemy mieć możliwość zawężenia wyników wyszukiwania, poprzez ustawianie zakresów na polach: rok produkcji, cena, pojemność oraz przebieg.

Co nam to mówi ?

Dobierzmy zatem takie typy dla tych pól, aby filtrowanie po zakresach było jak najbardziej wydajne.

5. Czy zostały mi pola, które nie zostały wymienione w punktach 2, 3 lub 4 ?

Okazuje się, że na polu „czy wymagane” nie będziemy przeprowadzać żadnych „operacji”.

Co nam to mówi ?

Ustawiamy atrybut „indexed” dla takiego pola na wartość false.

6.Czy wymagane ?

W naszym serwisie zakładamy, że polami wymaganymi dla każdego ogłoszenia będą pola marka, model oraz rok produkcji. Nie chcemy mieć dokumentów, które nie mają zdefiniowanych co najmniej tych trzech pól.

Co nam to mówi ?

Przy definiowaniu tych pól musimy pamiętać o ustawieniu wartości atrybutu „required” na true.

7. Czy wartości pól mają być pobierane z indeksu w oryginalnym stanie?

Informację ze wszystkich pól chcielibyśmy wyciągnąć bezpośrednio z wyników wyszukiwania i zaprezentować klientowi serwisu.

Co nam to mówi ?

Przy definiowaniu tych pól musimy pamiętać o ustawieniu wartości atrybutu „stored” na true.

Dodajmy definicje typów pól

Odpowiedzieliśmy już sobie na nasze niezbędne pytanie, wyciągnęliśmy wnioski, więc czas wprowadzić je w życie. Dodajmy do schemy typy pól:

Dodajemy zwykły typ string, który nie jest poddawany żadnej analizie, przyda się np. jako typ dla pola reprezentującego unikalny identyfikator dokumentu.

Dodajemy typ boolean.

Dodajemy typy dla pól liczbowych. Pamiętamy, że zależy nam na typach, które zagwarantują nam szybsze wykonywanie zapytań po zakresach. Skorzystajmy zatem z typów tint oraz tfloat:

Stwórzmy teraz typ tekstowy, który będzie wykorzystywany przez pole zbiorcze po którym będziemy wyszukiwać. Załóżmy prosty typ, który rozdzieli nam wszystkie tokeny po białych znakach, po czym zamieni wszystkie litery na małe.

Potrzebujemy jeszcze typu dla pól, które będą sortowalne/grupowalne:

KeywordTokenizer tak naprawdę nie tokenizuje wartości którą dostaje na wejściu, czyli niezmieniona wartość zostanie poddana działaniu filtra LowerCaseFilterFactory po czym filtr TrimFilterFactory zadba o to, aby zostały usunięte wszelkie białe znaki, znajdujące się na początku lub na końcu wartości.

Dodajmy definicje pól

Identyfikator dokumentu:

Marka oraz model:

Nasuwa się pytanie, dlaczego atrybuty indexed dla pól marka oraz model są ustawione na false? Przecież są to pola, które wykorzystywane są przy wyszukiwaniu, sortowaniu i grupowaniu. Zgadza się. Jednakże w celach wyszukiwania przekopiujemy wartości z tych pól do pola zbiorczego, a w celach sortowania/grupowania przekopiujemy wartości z tych pól do pól o typie „lowercase”.
Pola, do których będziemy kopiować wartości marek oraz modeli samochodów, a które to będą wykorzystywane do sortowania/grupowania po tych polach:

Pole zbiorcze, do którego będą kopiowane wartości z pól, po których chcemy wyszukiwać. Jako że do tego pola kopiujemy wartości z więcej niż jednego pola, musimy ustawić wartość atrybutu „multiValued” na true:

Rok produkcji:

Cena:

Pojemność:

Przebieg:

Kolor:

Pamiętamy o wartości false dla atrybutu „indexed” dla pola „Czy uszkodzony”:

Zostało nam przekopiować wartości z pól, po których wyszukujemy do jednego pola zbiorczego:

… i ponownie pola marki i modelu do pól, po których będziemy sortować:

Czy coś jeszcze do schemy?

Uzupełnijmy scheme jeszcze o 3 elementy:
Klucz unikalny dokumentu

id

Domyślne pole, po którym wyszukujemy

content

Domyślny operator, wykorzystywany przez parser zapytań do solr. Ustawmy go na wartość „AND”.

Mamy zatem gotowy plik konfiguracyjny schema.xml! Zobaczmy jak wygląda w całej okazałości:

Podsumowując

W dzisiejszym wpisie udało nam się stworzyć plik schema.xml, który pomoże nam tak zaindeksować dane, abyśmy mogli zrealizować funkcjonalności wyszukiwania ogłoszeń naszego serwisu sprzedaży samochodów. Chcielibyśmy jednak rozwijać nasz serwis, co będzie się wiązało z dodatkowymi zmianami w pliku konfiguracyjnym … i nie tylko. W następnych artykułach z cyklu „sprzedaż samochodów” będziemy realizować nowe wymagania oraz wprowadzać kolejne modyfikacje.