Aplikacja „sprzedaż samochodów” – projektowanie schema.xml dla naszych potrzeb (cz. 1)

Podstawowym plikiem konfiguracyjnym solr, który jest niejako łącznikiem pomiędzy tym czego potrzebujemy, a tym co rozumie solr, jest plik schema.xml. Dobre zaprojektowanie schema.xml jest głównym czynnikiem warunkującym poprawne funkcjonowanie wyszukiwarki, która będzie w stanie zrealizować wszystkie wymagania, jakie przed nią stawiamy. Zacznijmy zatem kolejny cykl artykułów, poświęconych projektowaniu pliku schema.xml jak i również wszystkich składników wchodzących w skład zdefiniowanych przez nas typów pól.

Analiza wymagań

Wyobraźmy sobie, że chcemy wykorzystać silnik solr w celu dodania wyszukiwarki ogłoszeń samochodowych do naszego serwisu. Serwis nasz jest w tym momencie dosyć prymitywny i przetrzymuje podstawowe informacje opisujące właściwości każdego wystawionego na sprzedaż samochodu:

  • marka
  • model
  • rok produkcji
  • cena
  • pojemność
  • przebieg
  • kolor
  • czy uszkodzony

Chcielibyśmy w tym momencie zaprojektować najprostszy plik konfiguracyjny, który pomoże odpowiednio zaindeksować dane z powyższych pól. Zanim jednak przystąpimy do rzeźbienia pliku schema.xml, odpowiedzmy sobie na siedem podstawowych pytań, dotyczących każdego z tych pól:

1. Jaki typ ?

Ustalamy typ każdego pola:

  • marka – pole tekstowe
  • model – pole tekstowe
  • rok produkcji – pole liczbowe
  • cena – pole liczbowe, zmiennoprzecinkowe
  • pojemność – pole liczbowe
  • przebieg – pole liczbowe
  • kolor – pole tekstowe
  • czy uszkodzony – pole logiczne

Co nam to mówi ?

Będziemy potrzebowali definicji typów: string, boolean, int, float.

2. Czy po polu ma się odbywać wyszukiwanie ?

Ustalamy, z których pól będą wykorzystywane informacje, w celu znalezienia odpowiednich ogłoszeń samochodowych. W naszym serwisie będą to 3 pola: marka, model oraz rok produkcji.

Co nam to mówi ?

Pewnie będziemy potrzebowali kolejnego typu pola, który będzie poddawany działaniu różnych filtrów, zwiększających nasze szanse znalezienia interesującego nas dokumentu. Stworzymy sobie dodatkowe pole tego typu, po którym będziemy wyszukiwać i wrzucimy tam dane z wszystkich 3 powyższych pól.

3. Czy sortowalne lub grupowalne ?

Serwis nasz przewiduje sortowanie wyników wyszukiwania po polach: model, rok produkcji, cena oraz przebieg. Chcielibyśmy również móc grupować wyniki wyszukiwania (faceting) po polach marka, model, rok produkcji oraz kolor.

Co nam to mówi ?

Pola tekstowe, po których sortujemy lub grupujemy nie powinny być poddawane działaniu filtrów, które mogą nam rozdzielić na tokeny wartości w tych polach. Zależy nam jednak na tym, aby wszystkie wartości były zapisane małymi literami, tak aby wielkość liter nie wpływała na sortowanie czy też grupowanie. Będzie trzeba stworzyć nowy typ pola, który nam to umożliwi.

4. Czy wykorzystywane przy filtrowaniu ?

Na stronie wyszukiwania ogłoszeń chcemy mieć możliwość zawężenia wyników wyszukiwania, poprzez ustawianie zakresów na polach: rok produkcji, cena, pojemność oraz przebieg.

Co nam to mówi ?

Dobierzmy zatem takie typy dla tych pól, aby filtrowanie po zakresach było jak najbardziej wydajne.

5. Czy zostały mi pola, które nie zostały wymienione w punktach 2, 3 lub 4 ?

Okazuje się, że na polu „czy wymagane” nie będziemy przeprowadzać żadnych „operacji”.

Co nam to mówi ?

Ustawiamy atrybut „indexed” dla takiego pola na wartość false.

6.Czy wymagane ?

W naszym serwisie zakładamy, że polami wymaganymi dla każdego ogłoszenia będą pola marka, model oraz rok produkcji. Nie chcemy mieć dokumentów, które nie mają zdefiniowanych co najmniej tych trzech pól.

Co nam to mówi ?

Przy definiowaniu tych pól musimy pamiętać o ustawieniu wartości atrybutu „required” na true.

7. Czy wartości pól mają być pobierane z indeksu w oryginalnym stanie?

Informację ze wszystkich pól chcielibyśmy wyciągnąć bezpośrednio z wyników wyszukiwania i zaprezentować klientowi serwisu.

Co nam to mówi ?

Przy definiowaniu tych pól musimy pamiętać o ustawieniu wartości atrybutu „stored” na true.

Dodajmy definicje typów pól

Odpowiedzieliśmy już sobie na nasze niezbędne pytanie, wyciągnęliśmy wnioski, więc czas wprowadzić je w życie. Dodajmy do schemy typy pól:

Dodajemy zwykły typ string, który nie jest poddawany żadnej analizie, przyda się np. jako typ dla pola reprezentującego unikalny identyfikator dokumentu.

<fieldType name="string" sortMissingLast="true" omitNorms="true"/>

Dodajemy typ boolean.

<fieldType name="boolean" sortMissingLast="true" omitNorms="true"/>

Dodajemy typy dla pól liczbowych. Pamiętamy, że zależy nam na typach, które zagwarantują nam szybsze wykonywanie zapytań po zakresach. Skorzystajmy zatem z typów tint oraz tfloat:

<fieldType name="tint" precisionStep="8" omitNorms="true" positionIncrementGap="0"/>
<fieldType name="tfloat" precisionStep="8" omitNorms="true" positionIncrementGap="0"/>

Stwórzmy teraz typ tekstowy, który będzie wykorzystywany przez pole zbiorcze po którym będziemy wyszukiwać. Załóżmy prosty typ, który rozdzieli nam wszystkie tokeny po białych znakach, po czym zamieni wszystkie litery na małe.

<fieldType name="text" positionIncrementGap="100">
  <analyzer>
    <tokenizer class="solr.WhitespaceTokenizerFactory"/>
    <filter class="solr.LowerCaseFilterFactory"/>
  </analyzer>
</fieldType>

Potrzebujemy jeszcze typu dla pól, które będą sortowalne/grupowalne:

<fieldType name="lowercase" positionIncrementGap="100">
  <analyzer>
    <tokenizer class="solr.KeywordTokenizerFactory"/>
    <filter class="solr.LowerCaseFilterFactory" />
    <filter class="solr.TrimFilterFactory" />
  </analyzer>
</fieldType>

KeywordTokenizer tak naprawdę nie tokenizuje wartości którą dostaje na wejściu, czyli niezmieniona wartość zostanie poddana działaniu filtra LowerCaseFilterFactory po czym filtr TrimFilterFactory zadba o to, aby zostały usunięte wszelkie białe znaki, znajdujące się na początku lub na końcu wartości.

Dodajmy definicje pól

Identyfikator dokumentu:

<field name="id" type="string" indexed="true" stored="true" required="true" />

Marka oraz model:

<field name="make" type="text" indexed="false" stored="true" required="true" />
<field name="model" type="text" indexed="false" stored="true" required="true" />

Nasuwa się pytanie, dlaczego atrybuty indexed dla pól marka oraz model są ustawione na false? Przecież są to pola, które wykorzystywane są przy wyszukiwaniu, sortowaniu i grupowaniu. Zgadza się. Jednakże w celach wyszukiwania przekopiujemy wartości z tych pól do pola zbiorczego, a w celach sortowania/grupowania przekopiujemy wartości z tych pól do pól o typie „lowercase”.
Pola, do których będziemy kopiować wartości marek oraz modeli samochodów, a które to będą wykorzystywane do sortowania/grupowania po tych polach:

<field name="make_sort" type="lowercase" indexed="true" stored="false" />
<field name="model_sort" type="lowercase" indexed="true" stored="false" />

Pole zbiorcze, do którego będą kopiowane wartości z pól, po których chcemy wyszukiwać. Jako że do tego pola kopiujemy wartości z więcej niż jednego pola, musimy ustawić wartość atrybutu „multiValued” na true:

<field name="content" type="text" indexed="true" stored="false" multiValued="true"/>

Rok produkcji:

<field name="year" type="tint" indexed="true" stored="true" required="true" />

Cena:

<field name="price" type="tfloat" indexed="true" stored="true" />

Pojemność:

<field name="engine_size" type="tint" indexed="true" stored="true" />

Przebieg:

<field name="mileage" type="tint" indexed="true" stored="true" />

Kolor:

<field name="colour" type="lowercase" indexed="true" stored="true" />

Pamiętamy o wartości false dla atrybutu „indexed” dla pola „Czy uszkodzony”:

<field name="damaged" type="boolean" indexed="false" stored="true" />

Zostało nam przekopiować wartości z pól, po których wyszukujemy do jednego pola zbiorczego:

<copyField source="make" dest="content"/>
<copyField source="model" dest="content"/>
<copyField source="year" dest="content"/>

… i ponownie pola marki i modelu do pól, po których będziemy sortować:

<copyField source="make" dest="make_sort"/>
<copyField source="model" dest="model_sort"/>

Czy coś jeszcze do schemy?

Uzupełnijmy scheme jeszcze o 3 elementy:
Klucz unikalny dokumentu

<uniqueKey>id</uniqueKey>

Domyślne pole, po którym wyszukujemy

<defaultSearchField>content</defaultSearchField>

Domyślny operator, wykorzystywany przez parser zapytań do solr. Ustawmy go na wartość „AND”.

<solrQueryParser defaultOperator="AND"/>

Mamy zatem gotowy plik konfiguracyjny schema.xml! Zobaczmy jak wygląda w całej okazałości:

<?xml version="1.0" encoding="UTF-8" ?>
<schema name="carsale" version="1.2">
  <types>
   <fieldType name="string" sortMissingLast="true" omitNorms="true"/>
   <fieldType name="boolean" sortMissingLast="true" omitNorms="true"/>
   <fieldType name="tint" precisionStep="8" omitNorms="true" positionIncrementGap="0"/>
   <fieldType name="tfloat" precisionStep="8" omitNorms="true" positionIncrementGap="0"/>
   <fieldType name="text" positionIncrementGap="100">
     <analyzer>
       <tokenizer class="solr.WhitespaceTokenizerFactory"/>
       <filter class="solr.LowerCaseFilterFactory"/>
     </analyzer>
   </fieldType>
   <fieldType name="lowercase" positionIncrementGap="100">
     <analyzer>
       <tokenizer class="solr.KeywordTokenizerFactory"/>
       <filter class="solr.LowerCaseFilterFactory" />
       <filter class="solr.TrimFilterFactory" />
     </analyzer>
   </fieldType>
 </types>
 <fields>
   <field name="id" type="string" indexed="true" stored="true" required="true" />
   <field name="make" type="text" indexed="false" stored="true" required="true" />
   <field name="model" type="text" indexed="false" stored="true" required="true" />
   <field name="make_sort" type="lowercase" indexed="true" stored="false" />
   <field name="model_sort" type="lowercase" indexed="true" stored="false" />
   <field name="year" type="tint" indexed="true" stored="true" required="true" />
   <field name="price" type="tfloat" indexed="true" stored="true" />
   <field name="engine_size" type="tint" indexed="true" stored="true" />
   <field name="mileage" type="tint" indexed="true" stored="true" />
   <field name="colour" type="lowercase" indexed="true" stored="true" />
   <field name="damaged" type="boolean" indexed="false" stored="true" />
   <field name="content" type="text" indexed="true" stored="false" multiValued="true"/>
 </fields>
 <uniqueKey>id</uniqueKey>
 <defaultSearchField>content</defaultSearchField>
 <solrQueryParser defaultOperator="AND"/>
 <copyField source="make" dest="content"/>
 <copyField source="model" dest="content"/>
 <copyField source="make" dest="make_sort"/>
 <copyField source="model" dest="model_sort"/>
 <copyField source="year" dest="content"/>
</schema>

Podsumowując

W dzisiejszym wpisie udało nam się stworzyć plik schema.xml, który pomoże nam tak zaindeksować dane, abyśmy mogli zrealizować funkcjonalności wyszukiwania ogłoszeń naszego serwisu sprzedaży samochodów. Chcielibyśmy jednak rozwijać nasz serwis, co będzie się wiązało z dodatkowymi zmianami w pliku konfiguracyjnym … i nie tylko. W następnych artykułach z cyklu „sprzedaż samochodów” będziemy realizować nowe wymagania oraz wprowadzać kolejne modyfikacje.


This post is also available in: angielski

This entry was posted on poniedziałek, Styczeń 31st, 2011 at 09:28 and is filed under Programowanie, Solr, Tutorial, Wyszukiwanie. You can follow any responses to this entry through the RSS 2.0 feed. You can leave a response, or trackback from your own site.