Solr: tworzenie własnego filtra

Czasami to co oferują Lucene i Solr mogą okazać się niewystarczające. Wtedy musimy sami rozszerzyć możliwości w/w i przygotować kawałek własnego kodu. W dzisiejszym wpisie postaram się pokazać, jak przygotować własny filtr i jak użyć go w Solr.

Wersja Solr

Poniższy tutorial dotyczy Solr 3.6. Uaktualniona wersja tego tutoriala pojawi się w momencie premiery Solr 4.0.

Założenia

Na potrzeby tego wpisu załóżmy, iż potrzebujemy filtra, który umożliwi nam odwrócenie dowolnego napisu. Zatem, jeżeli na wejściu dostajemy napis „solr.pl”, to na wyjściu chcemy otrzymać „lp.rlos”. Nie jest to może najtrudniejszy przykład funkcjonalności, ale na potrzeby wpisu wystarczy. We wpisie pomijam kwestie przygotowania sobie środowiska, kompilacji kodu, budowania biblioteki i tym podobnych.

Informacja dodatkowa

Kod, który będzie pokazany został stworzony, aby mógł działać w oparciu o Solr w wersji 3.6, ale nie powinno być problemów, aby został wykorzystany z Solr 4, aczkolwiek może być konieczna lekka modyfikacja kodu (jeżeli zmieni się coś w przyszłości w chwili wypuszczenia Solr).

Czego potrzebujemy

Aby nasz filtr mógł zostać wykorzystany w Solr potrzebujemy dwóch klas. Po pierwsze potrzebujemy implementacji właściwego filtra, która będzie realizować właściwą funkcjonalność. Po drugie konieczna będzie implementacji fabryki filtrów, która będzie odpowiedzialna za tworzenie i inicjalizację naszych filtrów. Zatem do dzieła.

Filtr

Aby zaimplementować nasz filtr skorzystamy z klasy TokenFilter z pakietu org.apache.lucene.analysis i rozszerzymy ją nadpisując metodę incrementToken. Metoda ta zwraca wartość typu boolean. Założenie jest takie, że jeżeli w strumieniu jest jeszcze token do dalszego przetwarzania metoda powinna zwrócić wartość true, jeżeli natomiast nie zostało już nic do przetworzenia metoda zwraca false. Implementacja filtra mogłaby wyglądać następująco:

package pl.solr.analysis;

import java.io.IOException;

import org.apache.lucene.analysis.TokenFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

public final class ReverseFilter extends TokenFilter {
  private CharTermAttribute charTermAttr;

  protected ReverseFilter(TokenStream ts) {
    super(ts);
    this.charTermAttr = addAttribute(CharTermAttribute.class);
  }

  @Override
  public boolean incrementToken() throws IOException {
    if (!input.incrementToken()) {
      return false;
    }

    int length = charTermAttr.length();
    char[] buffer = charTermAttr.buffer();
    char[] newBuffer = new char[length];
    for (int i = 0; i < length; i++) {
      newBuffer[i] = buffer[length - 1 - i];
    }
    charTermAttr.setEmpty();
    charTermAttr.copyBuffer(newBuffer, 0, newBuffer.length);
    return true;
  }
}

Wyjaśnienia niektórych elementów implementacji

Kilka słów wyjaśnienia, do implementacji pokazanej powyżej:

Linia 9 – klasa, która rozszerza klasę TokenFilter powinna być oznaczona jako final (wymagania stawiane przez Lucene).
Linia 10 – atrybut strumienia tokenów, który umożliwia pobranie oraz modyfikację tekstu z jakiego składa się dany term. Nasz filtr jest w stanie wykorzystywać wiele atrybutów strumienia, np. pozycję tokena w strumieniu, czy payload’ami. Listę klas implementujących interfejs Attribute można znaleźć w dokumentacji API Lucene (np. http://lucene.apache.org/core/3_6_0/api/all/org/apache/lucene/util/Attribute.html).
Linie 12 – 15 – konstruktor przyjmujący jako argument strumień tokenów oraz dodający (linia 14) do naszego filtra odpowiedni atrybut strumienia tokenów.
Linie 18 – 30 – implementacja metody incrementToken realizującej właściwe odwracanie napisów.
Linie 19 – 21 – sprawdzenie, czy został jakiś token w strumieniu i jeżeli nie został, to zwrócenie wartości false.
Linia 23 – pobranie właściwej wielkości bufora, którego zawartość to napis, który chcemy odwrócić.
Linia 24 – pobranie bufora, którego zawartość to napis który chcemy odwrócić. Tekst termu przechowywany jest jako tablica typu char i dlatego najbardziej wydajnym rozwiązaniem jest właśnie operacja na tej tablicy, a nie na obiekcie typu String.
Linie 25 – 28 – stworzenie nowego bufora oraz odwracanie aktualnego.
Linia 29 – oczyszczenie oryginalnego bufora (konieczne w przypadku korzystania z metod append).
Linia 30 – skopiowanie zmian z powrotem do bufora, czyli tak naprawdę zamienienie tego, który pobraliśmy w linii 23, na ten, który został już przetworzony.
Linia 31 – zwrócenie wartości true, aby poinformować, iż w buforze jest token do dalszego przetwarzania.

Fabryka

Tak jak wspomniałem wcześniej, aby móc skorzystać z naszego, wyżej zaimplementowanego filtra, konieczna jest implementacja fabryki. Ze względu na to, że nie mamy żadnych specjalnych opcji konfiguracyjnych, sama implementacja będzie dość prosta i zostanie oparta o klasę BaseTokenFilterFactory z pakietu org.apache.solr.analysis. Sama implementacja mogłaby wyglądać następująco:

package pl.solr.analysis;

import org.apache.lucene.analysis.TokenStream;
import org.apache.solr.analysis.BaseTokenFilterFactory;

public class ReverseFilterFactory extends BaseTokenFilterFactory {
  @Override
  public TokenStream create(TokenStream ts) {
    return new ReverseFilter(ts);
  }
}

Jak widać sama implementacja jest prosta i wymaga od nas nadpisania metody create w której tworzymy nasz filtr i zwracamy go. Nic bardziej prostego.

Konfiguracja

Po skompilowaniu i przygotowaniu biblioteki w formacie jar, kopiujemy ją do katalogu, gdzie Solr będzie ją widział. Możemy to uzyskać np. tworząc katalog lib w katalogu domowym Solr, a następnie dodać odpowiedni wpis do pliku solrconfig.xml, np. taki:

<lib dir="../lib/" regex="*.jar" />

Następnie zmieniamy plik schema.xml dodając nasz filtr do jednego z typów, na przykład w następujący sposób:

<fieldType name="text_reversed" class="solr.TextField">
  <analyzer>
    <tokenizer class="solr.WhitespaceTokenizerFactory"/>
    <filter class="pl.solr.analysis.ReverseFilterFactory" />
  </analyzer>
</fieldType>

Warto zauważyć, iż w w atrybucie class znacznika filter podajemy pełną nazwę pakietu oraz nazwę klasy implementującej fabrykę, a nie implementującą filtr. To ważne, inaczej Solr nie będzie w stanie stworzyć filtra.

Działanie

Poniżej zrzut ekranu z panelu administracyjnego Solr ilustrujący działanie filtra:

Podsumowanie

Jak widać na powyższym przykładzie, implementacja własnego filtra nie jest rzeczą bardzo skomplikowaną. Oczywiście, po raz kolejny podkreślę, iż pokazany przykład jest bardzo prosty, dlatego też sama implementacja należy do prostych. Mam nadzieję, iż po przeczytaniu tego artykułu tworzenie własnych filtrów do Solr będzie łatwiejsze 🙂

Solr.pl