<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>programowanie &#8211; Solr.pl</title>
	<atom:link href="https://solr.pl/tag/programowanie/feed/" rel="self" type="application/rss+xml" />
	<link>https://solr.pl</link>
	<description>All things to be found - Blog related to Apache Solr &#38; Lucene projects - https://solr.apache.org</description>
	<lastBuildDate>Wed, 11 Nov 2020 22:30:53 +0000</lastBuildDate>
	<language>pl-PL</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9</generator>
	<item>
		<title>Solr: tworzenie własnego filtra</title>
		<link>https://solr.pl/2012/05/14/solr-tworzenie-wlasnego-filtra/</link>
					<comments>https://solr.pl/2012/05/14/solr-tworzenie-wlasnego-filtra/#respond</comments>
		
		<dc:creator><![CDATA[Rafał Kuć]]></dc:creator>
		<pubDate>Mon, 14 May 2012 21:30:18 +0000</pubDate>
				<category><![CDATA[Solr]]></category>
		<category><![CDATA[filter]]></category>
		<category><![CDATA[filtr]]></category>
		<category><![CDATA[programowanie]]></category>
		<category><![CDATA[solr]]></category>
		<category><![CDATA[własny]]></category>
		<guid isPermaLink="false">http://sematext.solr.pl/?p=416</guid>

					<description><![CDATA[Czasami to co oferują Lucene i Solr mogą okazać się niewystarczające. Wtedy musimy sami rozszerzyć możliwości w/w i przygotować kawałek własnego kodu. W dzisiejszym wpisie postaram się pokazać, jak przygotować własny filtr i jak użyć go w Solr. Wersja Solr]]></description>
										<content:encoded><![CDATA[<p>Czasami to co oferują Lucene i Solr mogą okazać się niewystarczające. Wtedy musimy sami rozszerzyć możliwości w/w i przygotować kawałek własnego kodu. W dzisiejszym wpisie postaram się pokazać, jak przygotować własny filtr i jak użyć go w Solr.</p>
<p><span id="more-416"></span></p>
<h3>Wersja Solr</h3>
<p>Poniższy tutorial dotyczy <strong>Solr</strong> 3.6. Uaktualniona wersja tego tutoriala pojawi się w momencie premiery Solr 4.0.</p>
<h3>Założenia</h3>
<p>Na potrzeby tego wpisu załóżmy, iż potrzebujemy filtra, który umożliwi nam odwrócenie dowolnego napisu. Zatem, jeżeli na wejściu dostajemy napis &#8222;solr.pl&#8221;, to na wyjściu chcemy otrzymać &#8222;lp.rlos&#8221;. Nie jest to może najtrudniejszy przykład funkcjonalności, ale na potrzeby wpisu wystarczy. We wpisie pomijam kwestie przygotowania sobie środowiska, kompilacji kodu, budowania biblioteki i tym podobnych.</p>
<h3>Informacja dodatkowa</h3>
<p>Kod, który będzie pokazany został stworzony, aby mógł działać w oparciu o Solr w wersji <a href="http://solr.pl/2012/04/12/apache-lucene-i-solr-3-6/">3.6</a>, ale nie powinno być problemów, aby został wykorzystany z Solr 4, aczkolwiek może być konieczna lekka modyfikacja kodu (jeżeli zmieni się coś w przyszłości w chwili wypuszczenia Solr).</p>
<h3>Czego potrzebujemy</h3>
<p>Aby nasz filtr mógł zostać wykorzystany w Solr potrzebujemy dwóch klas. Po pierwsze potrzebujemy implementacji właściwego filtra, która będzie realizować właściwą funkcjonalność. Po drugie konieczna będzie implementacji fabryki filtrów, która będzie odpowiedzialna za tworzenie i inicjalizację naszych filtrów. Zatem do dzieła.</p>
<h3>Filtr</h3>
<p>Aby zaimplementować nasz filtr skorzystamy z klasy <em>TokenFilter</em> z pakietu <em>org.apache.lucene.analysis</em> i rozszerzymy ją nadpisując metodę <em>incrementToken</em>. Metoda ta zwraca wartość typu <em>boolean</em>. Założenie jest takie, że jeżeli w strumieniu jest jeszcze token do dalszego przetwarzania metoda powinna zwrócić wartość <em>true</em>, jeżeli natomiast nie zostało już nic do przetworzenia metoda zwraca <em>false</em>. Implementacja filtra mogłaby wyglądać następująco:
</p>
<pre class="brush:java">package pl.solr.analysis;

import java.io.IOException;

import org.apache.lucene.analysis.TokenFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

public final class ReverseFilter extends TokenFilter {
  private CharTermAttribute charTermAttr;

  protected ReverseFilter(TokenStream ts) {
    super(ts);
    this.charTermAttr = addAttribute(CharTermAttribute.class);
  }

  @Override
  public boolean incrementToken() throws IOException {
    if (!input.incrementToken()) {
      return false;
    }

    int length = charTermAttr.length();
    char[] buffer = charTermAttr.buffer();
    char[] newBuffer = new char[length];
    for (int i = 0; i &lt; length; i++) {
      newBuffer[i] = buffer[length - 1 - i];
    }
    charTermAttr.setEmpty();
    charTermAttr.copyBuffer(newBuffer, 0, newBuffer.length);
    return true;
  }
}</pre>
<h3>Wyjaśnienia niektórych elementów implementacji</h3>
<p>Kilka słów wyjaśnienia, do implementacji pokazanej powyżej:</p>
<ul>
<li><em>Linia 9</em> &#8211; klasa, która rozszerza klasę <em>TokenFilter</em> powinna być oznaczona jako <em>final</em> (wymagania stawiane przez Lucene).<br />
<em></em></li>
<li><em>Linia 10</em> &#8211; atrybut strumienia tokenów, który umożliwia pobranie oraz modyfikację tekstu z jakiego składa się dany term. Nasz filtr jest w stanie wykorzystywać wiele atrybutów strumienia, np. pozycję tokena w strumieniu, czy payload&#8217;ami. Listę klas implementujących interfejs <em>Attribute</em> można znaleźć w dokumentacji API Lucene (np. <a href="http://lucene.apache.org/core/3_6_0/api/all/org/apache/lucene/util/Attribute.html" target="_blank" rel="noopener noreferrer">http://lucene.apache.org/core/3_6_0/api/all/org/apache/lucene/util/Attribute.html</a>).</li>
<li><em>Linie 12 &#8211; 15 </em>&#8211; konstruktor przyjmujący jako argument strumień tokenów oraz dodający (<em>linia 14</em>) do naszego filtra odpowiedni atrybut strumienia tokenów.</li>
<li><em>Linie 18 &#8211; 30</em> &#8211; implementacja metody <em>incrementToken</em> realizującej właściwe odwracanie napisów.</li>
<li><em>Linie 19 &#8211; 21</em> &#8211; sprawdzenie, czy został jakiś token w strumieniu i jeżeli nie został, to zwrócenie wartości <em>false</em>.</li>
<li><em>Linia 23</em> &#8211; pobranie właściwej wielkości bufora, którego zawartość to napis, który chcemy odwrócić.<br />
<em></em></li>
<li><em>Linia 24</em> &#8211; pobranie bufora, którego zawartość to napis który chcemy odwrócić. Tekst termu przechowywany jest jako tablica typu <em>char</em> i dlatego najbardziej wydajnym rozwiązaniem jest właśnie operacja na tej tablicy, a nie na obiekcie typu String.</li>
<li><em>Linie 25 &#8211; 28</em> &#8211; stworzenie nowego bufora oraz odwracanie aktualnego.</li>
<li><em>Linia 29</em> &#8211; oczyszczenie oryginalnego bufora (konieczne w przypadku korzystania z metod <em>append</em>).</li>
<li><em>Linia 30</em> &#8211; skopiowanie zmian z powrotem do bufora, czyli tak naprawdę zamienienie tego, który pobraliśmy w linii 23, na ten, który został już przetworzony.</li>
<li><em>Linia 31</em> &#8211; zwrócenie wartości <em>true</em>, aby poinformować, iż w buforze jest token do dalszego przetwarzania.</li>
</ul>
<h3>Fabryka</h3>
<p>Tak jak wspomniałem wcześniej, aby móc skorzystać z naszego, wyżej zaimplementowanego filtra, konieczna jest implementacja fabryki. Ze względu na to, że nie mamy żadnych specjalnych opcji konfiguracyjnych, sama implementacja będzie dość prosta i zostanie oparta o klasę <em>BaseTokenFilterFactory</em> z pakietu <em>org.apache.solr.analysis</em>. Sama implementacja mogłaby wyglądać następująco:
</p>
<pre class="brush:java">package pl.solr.analysis;

import org.apache.lucene.analysis.TokenStream;
import org.apache.solr.analysis.BaseTokenFilterFactory;

public class ReverseFilterFactory extends BaseTokenFilterFactory {
  @Override
  public TokenStream create(TokenStream ts) {
    return new ReverseFilter(ts);
  }
}</pre>
<p>Jak widać sama implementacja jest prosta i wymaga od nas nadpisania metody <em>create</em> w której tworzymy nasz filtr i zwracamy go. Nic bardziej prostego.</p>
<h3>Konfiguracja</h3>
<p>Po skompilowaniu i przygotowaniu biblioteki w formacie <em>jar</em>, kopiujemy ją do katalogu, gdzie Solr będzie ją widział. Możemy to uzyskać np. tworząc katalog <em>lib</em> w katalogu domowym Solr, a następnie dodać odpowiedni wpis do pliku <em>solrconfig.xml</em>, np. taki:
</p>
<pre class="brush:xml">&lt;lib dir="../lib/" regex="*.jar" /&gt;</pre>
<p>Następnie zmieniamy plik <em>schema.xml</em> dodając nasz filtr do jednego z typów, na przykład w następujący sposób:
</p>
<pre class="brush:xml">&lt;fieldType name="text_reversed" class="solr.TextField"&gt;
  &lt;analyzer&gt;
    &lt;tokenizer class="solr.WhitespaceTokenizerFactory"/&gt;
    &lt;filter class="pl.solr.analysis.ReverseFilterFactory" /&gt;
  &lt;/analyzer&gt;
&lt;/fieldType&gt;</pre>
<p>Warto zauważyć, iż w w atrybucie <em>class</em> znacznika <em>filter</em> podajemy pełną nazwę pakietu oraz nazwę klasy implementującej fabrykę, a nie implementującą filtr. To ważne, inaczej Solr nie będzie w stanie stworzyć filtra.</p>
<h3>Działanie</h3>
<p>Poniżej zrzut ekranu z panelu administracyjnego Solr ilustrujący działanie filtra:</p>
<p><a href="http://solr.pl/wp-content/uploads/2012/05/ReverseFilter1.png"><img fetchpriority="high" decoding="async" class="alignnone  wp-image-2369" title="ReverseFilter" src="http://solr.pl/wp-content/uploads/2012/05/ReverseFilter1.png" alt="" width="555" height="211"></a></p>
<h3>Podsumowanie</h3>
<p>Jak widać na powyższym przykładzie, implementacja własnego filtra nie jest rzeczą bardzo skomplikowaną. Oczywiście, po raz kolejny podkreślę, iż pokazany przykład jest bardzo prosty, dlatego też sama implementacja należy do prostych. Mam nadzieję, iż po przeczytaniu tego artykułu tworzenie własnych filtrów do Solr będzie łatwiejsze <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/1f642.png" alt="🙂" class="wp-smiley" style="height: 1em; max-height: 1em;" /></p>
<h3></h3>
]]></content:encoded>
					
					<wfw:commentRss>https://solr.pl/2012/05/14/solr-tworzenie-wlasnego-filtra/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
	</channel>
</rss>
