howto – Solr.pl

Aplikacja „sprzedaż samochodów” – Spatial Search, czyli wprowadzenie danych lokalizacyjnych (cz. 3)

Rafał Andrzejewski — Mon, 14 Mar 2011 08:13:38 +0000

Ilość ogłoszeń w naszej bazie rozrosła się do tego stopnia, że klienci zaproponowali dodanie nowej opcji przy filtrowaniu wyników wyszukiwania oraz nowej opcji sortowania. Mianowicie musimy dodać funkcjonalność, która pozwoli nam operować na danych związanych z lokalizacją auta w danym ogłoszeniu.

Analiza wymagań

Chcemy dodać dwie nowe funkcjonalności:

Zawężanie wyników wyszukiwania w taki sposób, aby możliwe było wyświetlenie tylko tych aut, które są położone nie dalej niż x kilometrów od określonego miejsca, gdzie x = 50,100,200,500,1000 km.
Sortowanie wyników wyszukiwania po odległości pomiędzy danym punktem, a lokalizacją auta z danego ogłoszenia.

W celu realizacji powyższych zadań, skorzystamy z funkcjonalności solr zwanej „Spatial Search”, która dostępna jest od wersji 3.1. Zmiany, które będziemy musieli wprowadzić, dotyczyć będą modyfikacji pliku schema.xml oraz danych wejściowych, do których dodamy informację o położeniu geograficznym każdego z aut. Na końcu zostanie nam już tylko odpowiednie złożenie zapytań.

Zmiany w schema.xml

Definicja nowych typów pól:
- pierwsza definicja to nic innego jak kolejny typ liczbowy – double:
- druga definicja zaś wykorzystuje specjalną klasę „solr.LatLonType”, która pozwoli nam na zaindeksowanie danych geograficznych wykorzystując pole dynamiczne o suffixie „_coordinate”:
Definicja nowych pól:
- pole, które będzie wykorzystywane do gromadzenia informacji o nazwie miejscowości, z którego pochodzi auto:
- pole „loc” posłuży nam do zaindeksowania danych lokalizacyjnych:
- pole dynamiczne będzie wykorzystywane wewnętrznie do gromadzenia informacji, które wprowadzimy do pola „loc”:

Analiza danych wejściowych

W celu prezentacji sposobu modyfikacji nowych danych, weźmy próbkę 5-ciu ogłoszeń z miast:

Koszalin
- szerokość geograficzna: 54.12
- długość geograficzna: 16.11
Białystok
- szerokość geograficzna: 53.08
- długość geograficzna: 23.09
Szczecin
- szerokość geograficzna: 53.25
- długość geograficzna: 14.35
Gdańsk
- szerokość geograficzna: 54.21
- długość geograficzna: 18.40
Warszawa
- szerokość geograficzna: 52.15
- długość geograficzna: 21.00

Dane lokalizacyjne wprowadzamy do pola „loc” wpisując szerokość geograficzną danego miasta oraz po przecinku jego długość. Nasze dane mogą wyglądać zatem tak:


   
      1
      Audi
      80
      2008
      9774
      2000
      92467
      green
      false
      Koszalin
      54.12,16.11
   
   
      2
      Audi
      A8
      2009
      9078
      1000
      31369
      black
      false
      Białystok
      53.08,23.09
   
   
      3
      Audi
      TT
      1997
      1109
      1299
      116987
      silver
      true
      Szczecin
      53.25,14.35
   
   
      4
      BMW
      Seria 7
      2007
      140000
      3000
      418000
      green
      false
      Gdańsk
      54.21,18.40
   
   
      5
      Chevrolet
      TrailBlazer
      2007
      140000
      3000
      418000
      green
      false
      Warszawa
      52.15,21.00

Tworzymy zapytania

Dane lokalizacyjne mamy w indeksie, zatem zostało nam już tylko złożyć odpowiednie zapytania, które zrealizują nasze nowe funkcjonalności. Załóżmy, że będziemy wyszukiwać ogłoszenia znajdując się w mieście Białystok, które jest położone w odległości ok. 200 km od miasta Warszawa, ok. 400 km od miasta Gdańsk, ok. 550 km od miasta Koszalin oraz ok. 650 km od miasta Szczecin.

W celu realizacji punktu 1 z analizy wymagań, dodajemy do żądania nowe zapytanie filtrujące:

...&fq={!geofilt sfield=loc}&pt=53.08,23.09&d=50

gdzie:

sfield – nazwa pola, do którego wprowadzaliśmy nasze dane lokalizacyjne.
pt – współrzędne punktu startowego, w naszym wypadku są to współrzędne miasta Białystok.
d – dystans o jaki chcemy zawęzić wyniki wyszukiwania. Podstawiając kolejno wartości 50,100,200,500,1000 możemy zrealizować nasze wymagania.

Przykład:

Zapytanie:

q=*:*&fq={!geofilt sfield=loc}&pt=53.08,23.09&d=200

Wyniki wyszukiwania:


   
      Białystok
      black
      false
      1000
      2
      Audi
      31369
      A8
      9078.0
      2009
   
   
      Warszawa
      green
      false
      3000
      5
      Chevrolet 
      418000
      TrailBlazer
      140000.0
      2007

Świetnie, w wynikach nie mamy ogłoszeń z miast Koszalin, Gdańsk oraz Szczecin, gdyż te miasta leżą w odległości ponad 200 km od miasta Białystok.

W celu realizacji punktu 2 z analizy wymagań, wykorzystamy możliwość sortowania wyników wyszukiwania z użyciem funkcji geodist. Tworzymy następujące zapytanie:

...&sfield=loc&pt=53.08,23.09&sort=geodist()+desc

Przykład sortowania wyników wyszukiwania po odległości, rozpoczynając od miasta Białystok:

Zapytanie:

q=*:*&sfield=loc&pt=53.08,23.09&sort=geodist()+asc

Wyniki wyszukiwania:


   
      Białystok
      black
      false
      1000
      2
      Audi
      31369
      A8
      9078.0
      2009
   
   
      Warszawa
      green
      false
      3000
      5
      Chevrolet 
      418000
      TrailBlazer
      140000.0
      2007
   
   
      Gdańsk
      green
      false
      3000
      4
      BMW
      418000
      Seria 7
      140000.0
      2007
   
   
      Koszalin
      green
      false
      2000
      1
      Audi
      92467
      80
      9774.0
      2008
   
   
      Szczecin
      silver
      true
      1299
      3
      Audi
      116987
      TT
      1109.0
      1997

Zgadza się! Wymagania zostały zrealizowane.

Podsumowanie

Po raz kolejny udało nam się sprostać oczekiwaniom naszych klientów. Tym razem dodaliśmy funkcjonalności związane z lokalizacją geograficzną aut, które pozwolą użytkownikom na zawężanie oraz sortowanie wyników wyszukiwania wykorzystując odległości geograficzne. Pełen sukces.

Aplikacja „sprzedaż samochodów” – WordDelimiterFilter i PatternReplaceFilter, czyli na ratunek jakości wyników (cz. 2)

Rafał Kuć — Mon, 14 Feb 2011 08:03:28 +0000

W pierwszej części naszego cyklu stworzyliśmy pewną standardową strukturę indeksu, odpowiednio konfigurując plik schema.xml. Przy takiej konfiguracji, na pierwsze skargi klientów, dotyczących działania silnika wyszukiwawczego nie trzeba było długo czekać. Dlaczego wpisując w kryteria wyszukiwania frazę „audi a” nie otrzymuję ofert związanych z autami „Audi A6” lub „Audi A8” ? Wpisałem „Honda crv” – 0 wyników. „Suzuki maruti” – też nic. Czy takich ofert nie ma w bazie z ogłoszeniami ? Otóż są, ale konfiguracja typu pola, po którym wyszukujemy (pole „content” – typ „text”) uniemożliwia w obecnym stanie znalezienie tych ogłoszeń przy zastosowaniu powyższych zapytań. Na pomoc rusza nam chyba najbardziej popularny filtr – WordDelimiterFilter, oraz PatternReplaceFilter, których odpowiednia konfiguracja pozwoli sprostać naszym potrzebom.

Analiza wymagań

W celu dokonania analizy danych, które wchodzą w skład pola, po którym wyszukujemy, weźmy następującą próbkę, na której oprzemy naszą konfigurację:

Marka: Audi
Modele: 80, 90, A6, A8, TT

Marka: BMW
Modele: M3, M5, Seria 7, Seria 8, X1, X3

Marka: Chevrolet
Modele: TrailBlazer

Marka: Citroen
Modele: C-Crosser, C3 Pluriel, C4 Picasso

Marka: Ford
Modele: C-MAX, S-MAX

Marka: Honda
Modele: Accord, CR-V, FR-V, HR-V

Marka: Kia
Modele: Cee’d

Marka: Suzuki
Modele: Alto/Maruti

Nazwy marek są prostymi słowami, z którymi aktualna konfiguracja (WhitespaceTokenizer + LowerCaseFilter) poradzi sobie bez problemu. Problem pojawia się przy modelach aut, które zawierają dodatkowe znaki oraz separatory, które często ignorujemy przy wyszukiwaniu. Pogrupujmy sobie powyższą próbkę ze względu na charakterystykę danych:

Nazwy modeli, które nie wymagają dodatkowych filtrów i obecna konfiguracja jest wystarczająca – 80, 90, TT, Seria 7, Seria 8, Accord
Nazwy modeli, których nazwy składają się z cyfr i liter, których to rozdzielenie jest pożądane – A6, A8, M3, M5, X1, X3, C3 Pluriel, C4 Picasso. Chcielibyśmy móc wyszukiwać powyższe modele wpisując tylko literę lub tylko cyfrę, ale również wpisując całą nazwę modelu.
Modele, które mają zmianę wielkości znaków w nazwie – TrailBlazer. Chcielibyśmy znaleźć taki model wpisując „trail”, „blazer”, „trailBlazer”, „trailblazer”.
Nazwy modeli, które zawierają separatory, które chcemy ignorować (wpisując nazwę modelu jako pełny wyraz – uwzględniając separator lub nie – oraz po częściach nazwy modelu, które taki separator generuje) – C-Crosser, C-MAX, S-MAX, CR-V, FR-V, HR-V, Alto/Maruti.
Przykład: chcielibyśmy znaleźć ogłoszenie z modelem „C-MAX” wpisująć frazy „c”, „max”, „c-max” „cmax”.
Celowo w punkcie 4 pominąłem model „Cee’d”. Ten model przy wyszukiwaniu chcielibyśmy traktować trochę inaczej, a mianowicie uniemożliwić znalezienie ogłoszenia przy wpisaniu „cee” lub „d”. Traktujemy nazwę „Cee’d” tylko i wyłącznie jako jeden wyraz, czyli realizujemy wyszukiwanie tylko dla przypadków „cee’d” oraz „ceed”.

Konfiguracja WordDelimiterFilter

Na podstawie opisanej charakterystyki dobierzmy takie wartości atrybutów filtra WordDelimiterFilter, aby wszystkie powyższe wymagania zostały spełnione:

WordDelimiterFilter jest w tym wypadku zbędny, do realizacji wymagań z pkt 1 wystarczy WhitespaceTokenizer + LowerCaseFilter.
W celu realizacji wymagań z pkt 2 należy zadbać o odpowiednie ustawienie następujących atrybutów:
- generateWordParts=”1″ – wartość musi być ustawiona na „1”, jeżeli chcemy mieć możliwość generowania części słów
- generateNumberParts=”1″ – wartość musi być ustawiona na „1”, jeżeli chcemy mieć możliwość generowania części liczbowych
- splitOnNumerics=”1″ – wartość musi być ustawiona na „1”, jeżeli chcemy mieć możliwość rozdzielania literek od liczb
W celu realizacji wymagań z pkt 3, musimy ustawić następujące atrybuty:
- generateWordParts=”1″
- splitOnCaseChange=”1″ – wartość musi być ustawiona na „1”, jeżeli chcemy mieć możliwość generowania części słów przy przejściu z dużej litery na małą i odwrotnie
W celu realizacji wymagań z pkt 4, ustawiamy następujące atrybuty:
- generateWordParts=”1″
- catenateWords=”1″ – wartość musi być ustawiona na „1”, abyśmy mogli dodatkowo ignorować separatory, poprzez łączenie wyrazów, które są takim separatorem rozdzielone

Zatem konfiguracja naszego filtra wygląda następująco:

Dodatkowo okazuje się, że domyślna wartość atrybutów „splitOnNumerics” oraz „splitOnNumerics” to właśnie „1”. Pozostałe atrybuty, których nie wykorzystujemy (poza „stemEnglishPossessive”), mają domyślną wartość na „0”. Konfiguracja naszego filtra zatem upraszcza się do następującej postaci:

Co zrobić z punktem nr. 5 naszej charakterystyki danych? Ustaliliśmy, że nie chcielibyśmy dla tego przypadku traktować znaku ” ’ ” jako separatora, a tak właśnie by się stało przy powyższej konfiguracji. Może zatem użyć w filtrze opcji, która zachowa to słowo w stanie niezmienionym, czyli wykorzystać atrybut protected=”protwords.txt” i dodać słowo „Cee’d” do pliku protwords.txt? No tak, ale co z faktem, że chcemy móc wyszukać taki dokument, przy wpisaniu frazy „ceed” ? Najlepiej by było zająć się tym przypadkiem w oddzielnym filtrze, a do filtra WordDelimiterFilter wprowadzić wartość, której ten filtr nie będzie musiał już analizować.

Konfiguracja PatternReplaceFilter

Filtr PatternReplaceFilter zastosujemy przed filtrem WordDelimiterFilter. Za pomocą PatternReplaceFilter będziemy mogli po prostu wyciąć znak „'” z nazwy tego specyficznego modelu, zastępując go pustym znakiem. W ten sposób, do filtra WordDelimiterFilter trafi nam nazwa „Ceed”, która przy obecnej konfiguracji nie zastosuje na takiej wartości żadnej modyfikacji. Filtry będą miały taką samą konfigurację przy indeksowaniu jak i przy wyszukiwaniu, zatem użytkownik będzie w stanie znaleźć ogłoszenie z marką „Cee’d” przy wpisaniu frazy „cee’d” jak i „ceed”:

Wizualizacja działania nowej konfiguracji typu pola „text”

Podsumowując, nasz typ „text” zmienił się następująco:

Wykorzystajmy panel administracyjny solr, aby zobaczyć na przykładzie każdego z punktów, czy konfigurując nasz typ tak jak powyżej, otrzymamy to, czego oczekujemy:

(Model: „80”) Tak jak oczekiwaliśmy, wprowadzone filtry nie mają wpływu na dane charakterystyczne dla punktu 1.
(Model: „A8”) WordDelimiterFilter rozdzielił nam liczbę od wyrazu.
(Model: „TrailBlazer”)WordDelimiterFilter rozdzielił nam „trail” od „Blazer”. Dodatkowo mamy możliwość wyszukiwania po „trailblazer”. Super.
(Model: „CR-V”) WordDelimiterFilter rozdzielił nam wyraz po separatorze (w tym wypadku „-„). Dodatkowo mamy możliwość wyszukiwania po nazwie modelu nie uwzględniając separatora („crv”).
(Model: „Cee’d”) PatternReplaceFilter zamienił nam „Cee’d” na „Ceed” a WordDelimiterFilter zachował tę wartość. O to nam chodziło.

Podsumowanie

W drugiej części naszego cyklu użyliśmy dwóch nowych filtrów w celu poprawy jakości wyników wyszukiwania. Na przykładzie naszych „samochodowych” danych omówiliśmy użycie WordDelimiterFilter oraz PatternReplaceFilter. Poprawka wprowadzona, klient usatysfakcjonowany … ale na jak długo ?

Aplikacja „sprzedaż samochodów” – projektowanie schema.xml dla naszych potrzeb (cz. 1)

Rafał Andrzejewski — Mon, 31 Jan 2011 08:01:46 +0000

Podstawowym plikiem konfiguracyjnym solr, który jest niejako łącznikiem pomiędzy tym czego potrzebujemy, a tym co rozumie solr, jest plik schema.xml. Dobre zaprojektowanie schema.xml jest głównym czynnikiem warunkującym poprawne funkcjonowanie wyszukiwarki, która będzie w stanie zrealizować wszystkie wymagania, jakie przed nią stawiamy. Zacznijmy zatem kolejny cykl artykułów, poświęconych projektowaniu pliku schema.xml jak i również wszystkich składników wchodzących w skład zdefiniowanych przez nas typów pól.

Analiza wymagań

Wyobraźmy sobie, że chcemy wykorzystać silnik solr w celu dodania wyszukiwarki ogłoszeń samochodowych do naszego serwisu. Serwis nasz jest w tym momencie dosyć prymitywny i przetrzymuje podstawowe informacje opisujące właściwości każdego wystawionego na sprzedaż samochodu:

marka
model
rok produkcji
cena
pojemność
przebieg
kolor
czy uszkodzony

Chcielibyśmy w tym momencie zaprojektować najprostszy plik konfiguracyjny, który pomoże odpowiednio zaindeksować dane z powyższych pól. Zanim jednak przystąpimy do rzeźbienia pliku schema.xml, odpowiedzmy sobie na siedem podstawowych pytań, dotyczących każdego z tych pól:

1. Jaki typ ?

Ustalamy typ każdego pola:

marka – pole tekstowe
model – pole tekstowe
rok produkcji – pole liczbowe
cena – pole liczbowe, zmiennoprzecinkowe
pojemność – pole liczbowe
przebieg – pole liczbowe
kolor – pole tekstowe
czy uszkodzony – pole logiczne

Co nam to mówi ?

Będziemy potrzebowali definicji typów: string, boolean, int, float.

2. Czy po polu ma się odbywać wyszukiwanie ?

Ustalamy, z których pól będą wykorzystywane informacje, w celu znalezienia odpowiednich ogłoszeń samochodowych. W naszym serwisie będą to 3 pola: marka, model oraz rok produkcji.

Co nam to mówi ?

Pewnie będziemy potrzebowali kolejnego typu pola, który będzie poddawany działaniu różnych filtrów, zwiększających nasze szanse znalezienia interesującego nas dokumentu. Stworzymy sobie dodatkowe pole tego typu, po którym będziemy wyszukiwać i wrzucimy tam dane z wszystkich 3 powyższych pól.

3. Czy sortowalne lub grupowalne ?

Serwis nasz przewiduje sortowanie wyników wyszukiwania po polach: model, rok produkcji, cena oraz przebieg. Chcielibyśmy również móc grupować wyniki wyszukiwania (faceting) po polach marka, model, rok produkcji oraz kolor.

Co nam to mówi ?

Pola tekstowe, po których sortujemy lub grupujemy nie powinny być poddawane działaniu filtrów, które mogą nam rozdzielić na tokeny wartości w tych polach. Zależy nam jednak na tym, aby wszystkie wartości były zapisane małymi literami, tak aby wielkość liter nie wpływała na sortowanie czy też grupowanie. Będzie trzeba stworzyć nowy typ pola, który nam to umożliwi.

4. Czy wykorzystywane przy filtrowaniu ?

Na stronie wyszukiwania ogłoszeń chcemy mieć możliwość zawężenia wyników wyszukiwania, poprzez ustawianie zakresów na polach: rok produkcji, cena, pojemność oraz przebieg.

Co nam to mówi ?

Dobierzmy zatem takie typy dla tych pól, aby filtrowanie po zakresach było jak najbardziej wydajne.

5. Czy zostały mi pola, które nie zostały wymienione w punktach 2, 3 lub 4 ?

Okazuje się, że na polu „czy wymagane” nie będziemy przeprowadzać żadnych „operacji”.

Co nam to mówi ?

Ustawiamy atrybut „indexed” dla takiego pola na wartość false.

6.Czy wymagane ?

W naszym serwisie zakładamy, że polami wymaganymi dla każdego ogłoszenia będą pola marka, model oraz rok produkcji. Nie chcemy mieć dokumentów, które nie mają zdefiniowanych co najmniej tych trzech pól.

Co nam to mówi ?

Przy definiowaniu tych pól musimy pamiętać o ustawieniu wartości atrybutu „required” na true.

7. Czy wartości pól mają być pobierane z indeksu w oryginalnym stanie?

Informację ze wszystkich pól chcielibyśmy wyciągnąć bezpośrednio z wyników wyszukiwania i zaprezentować klientowi serwisu.

Co nam to mówi ?

Przy definiowaniu tych pól musimy pamiętać o ustawieniu wartości atrybutu „stored” na true.

Dodajmy definicje typów pól

Odpowiedzieliśmy już sobie na nasze niezbędne pytanie, wyciągnęliśmy wnioski, więc czas wprowadzić je w życie. Dodajmy do schemy typy pól:

Dodajemy zwykły typ string, który nie jest poddawany żadnej analizie, przyda się np. jako typ dla pola reprezentującego unikalny identyfikator dokumentu.

Dodajemy typ boolean.

Dodajemy typy dla pól liczbowych. Pamiętamy, że zależy nam na typach, które zagwarantują nam szybsze wykonywanie zapytań po zakresach. Skorzystajmy zatem z typów tint oraz tfloat:

Stwórzmy teraz typ tekstowy, który będzie wykorzystywany przez pole zbiorcze po którym będziemy wyszukiwać. Załóżmy prosty typ, który rozdzieli nam wszystkie tokeny po białych znakach, po czym zamieni wszystkie litery na małe.

Potrzebujemy jeszcze typu dla pól, które będą sortowalne/grupowalne:

KeywordTokenizer tak naprawdę nie tokenizuje wartości którą dostaje na wejściu, czyli niezmieniona wartość zostanie poddana działaniu filtra LowerCaseFilterFactory po czym filtr TrimFilterFactory zadba o to, aby zostały usunięte wszelkie białe znaki, znajdujące się na początku lub na końcu wartości.

Dodajmy definicje pól

Identyfikator dokumentu:

Marka oraz model:

Nasuwa się pytanie, dlaczego atrybuty indexed dla pól marka oraz model są ustawione na false? Przecież są to pola, które wykorzystywane są przy wyszukiwaniu, sortowaniu i grupowaniu. Zgadza się. Jednakże w celach wyszukiwania przekopiujemy wartości z tych pól do pola zbiorczego, a w celach sortowania/grupowania przekopiujemy wartości z tych pól do pól o typie „lowercase”.
Pola, do których będziemy kopiować wartości marek oraz modeli samochodów, a które to będą wykorzystywane do sortowania/grupowania po tych polach:

Pole zbiorcze, do którego będą kopiowane wartości z pól, po których chcemy wyszukiwać. Jako że do tego pola kopiujemy wartości z więcej niż jednego pola, musimy ustawić wartość atrybutu „multiValued” na true:

Rok produkcji:

Cena:

Pojemność:

Przebieg:

Kolor:

Pamiętamy o wartości false dla atrybutu „indexed” dla pola „Czy uszkodzony”:

Zostało nam przekopiować wartości z pól, po których wyszukujemy do jednego pola zbiorczego:

… i ponownie pola marki i modelu do pól, po których będziemy sortować:

Czy coś jeszcze do schemy?

Uzupełnijmy scheme jeszcze o 3 elementy:
Klucz unikalny dokumentu

id

Domyślne pole, po którym wyszukujemy

content

Domyślny operator, wykorzystywany przez parser zapytań do solr. Ustawmy go na wartość „AND”.

Mamy zatem gotowy plik konfiguracyjny schema.xml! Zobaczmy jak wygląda w całej okazałości:

Podsumowując

W dzisiejszym wpisie udało nam się stworzyć plik schema.xml, który pomoże nam tak zaindeksować dane, abyśmy mogli zrealizować funkcjonalności wyszukiwania ogłoszeń naszego serwisu sprzedaży samochodów. Chcielibyśmy jednak rozwijać nasz serwis, co będzie się wiązało z dodatkowymi zmianami w pliku konfiguracyjnym … i nie tylko. W następnych artykułach z cyklu „sprzedaż samochodów” będziemy realizować nowe wymagania oraz wprowadzać kolejne modyfikacje.