<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>filtr &#8211; Solr.pl</title>
	<atom:link href="https://solr.pl/tag/filtr/feed/" rel="self" type="application/rss+xml" />
	<link>https://solr.pl</link>
	<description>All things to be found - Blog related to Apache Solr &#38; Lucene projects - https://solr.apache.org</description>
	<lastBuildDate>Wed, 11 Nov 2020 22:30:53 +0000</lastBuildDate>
	<language>pl-PL</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9</generator>
	<item>
		<title>Solr: tworzenie własnego filtra</title>
		<link>https://solr.pl/2012/05/14/solr-tworzenie-wlasnego-filtra/</link>
					<comments>https://solr.pl/2012/05/14/solr-tworzenie-wlasnego-filtra/#respond</comments>
		
		<dc:creator><![CDATA[Rafał Kuć]]></dc:creator>
		<pubDate>Mon, 14 May 2012 21:30:18 +0000</pubDate>
				<category><![CDATA[Solr]]></category>
		<category><![CDATA[filter]]></category>
		<category><![CDATA[filtr]]></category>
		<category><![CDATA[programowanie]]></category>
		<category><![CDATA[solr]]></category>
		<category><![CDATA[własny]]></category>
		<guid isPermaLink="false">http://sematext.solr.pl/?p=416</guid>

					<description><![CDATA[Czasami to co oferują Lucene i Solr mogą okazać się niewystarczające. Wtedy musimy sami rozszerzyć możliwości w/w i przygotować kawałek własnego kodu. W dzisiejszym wpisie postaram się pokazać, jak przygotować własny filtr i jak użyć go w Solr. Wersja Solr]]></description>
										<content:encoded><![CDATA[<p>Czasami to co oferują Lucene i Solr mogą okazać się niewystarczające. Wtedy musimy sami rozszerzyć możliwości w/w i przygotować kawałek własnego kodu. W dzisiejszym wpisie postaram się pokazać, jak przygotować własny filtr i jak użyć go w Solr.</p>
<p><span id="more-416"></span></p>
<h3>Wersja Solr</h3>
<p>Poniższy tutorial dotyczy <strong>Solr</strong> 3.6. Uaktualniona wersja tego tutoriala pojawi się w momencie premiery Solr 4.0.</p>
<h3>Założenia</h3>
<p>Na potrzeby tego wpisu załóżmy, iż potrzebujemy filtra, który umożliwi nam odwrócenie dowolnego napisu. Zatem, jeżeli na wejściu dostajemy napis &#8222;solr.pl&#8221;, to na wyjściu chcemy otrzymać &#8222;lp.rlos&#8221;. Nie jest to może najtrudniejszy przykład funkcjonalności, ale na potrzeby wpisu wystarczy. We wpisie pomijam kwestie przygotowania sobie środowiska, kompilacji kodu, budowania biblioteki i tym podobnych.</p>
<h3>Informacja dodatkowa</h3>
<p>Kod, który będzie pokazany został stworzony, aby mógł działać w oparciu o Solr w wersji <a href="http://solr.pl/2012/04/12/apache-lucene-i-solr-3-6/">3.6</a>, ale nie powinno być problemów, aby został wykorzystany z Solr 4, aczkolwiek może być konieczna lekka modyfikacja kodu (jeżeli zmieni się coś w przyszłości w chwili wypuszczenia Solr).</p>
<h3>Czego potrzebujemy</h3>
<p>Aby nasz filtr mógł zostać wykorzystany w Solr potrzebujemy dwóch klas. Po pierwsze potrzebujemy implementacji właściwego filtra, która będzie realizować właściwą funkcjonalność. Po drugie konieczna będzie implementacji fabryki filtrów, która będzie odpowiedzialna za tworzenie i inicjalizację naszych filtrów. Zatem do dzieła.</p>
<h3>Filtr</h3>
<p>Aby zaimplementować nasz filtr skorzystamy z klasy <em>TokenFilter</em> z pakietu <em>org.apache.lucene.analysis</em> i rozszerzymy ją nadpisując metodę <em>incrementToken</em>. Metoda ta zwraca wartość typu <em>boolean</em>. Założenie jest takie, że jeżeli w strumieniu jest jeszcze token do dalszego przetwarzania metoda powinna zwrócić wartość <em>true</em>, jeżeli natomiast nie zostało już nic do przetworzenia metoda zwraca <em>false</em>. Implementacja filtra mogłaby wyglądać następująco:
</p>
<pre class="brush:java">package pl.solr.analysis;

import java.io.IOException;

import org.apache.lucene.analysis.TokenFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

public final class ReverseFilter extends TokenFilter {
  private CharTermAttribute charTermAttr;

  protected ReverseFilter(TokenStream ts) {
    super(ts);
    this.charTermAttr = addAttribute(CharTermAttribute.class);
  }

  @Override
  public boolean incrementToken() throws IOException {
    if (!input.incrementToken()) {
      return false;
    }

    int length = charTermAttr.length();
    char[] buffer = charTermAttr.buffer();
    char[] newBuffer = new char[length];
    for (int i = 0; i &lt; length; i++) {
      newBuffer[i] = buffer[length - 1 - i];
    }
    charTermAttr.setEmpty();
    charTermAttr.copyBuffer(newBuffer, 0, newBuffer.length);
    return true;
  }
}</pre>
<h3>Wyjaśnienia niektórych elementów implementacji</h3>
<p>Kilka słów wyjaśnienia, do implementacji pokazanej powyżej:</p>
<ul>
<li><em>Linia 9</em> &#8211; klasa, która rozszerza klasę <em>TokenFilter</em> powinna być oznaczona jako <em>final</em> (wymagania stawiane przez Lucene).<br />
<em></em></li>
<li><em>Linia 10</em> &#8211; atrybut strumienia tokenów, który umożliwia pobranie oraz modyfikację tekstu z jakiego składa się dany term. Nasz filtr jest w stanie wykorzystywać wiele atrybutów strumienia, np. pozycję tokena w strumieniu, czy payload&#8217;ami. Listę klas implementujących interfejs <em>Attribute</em> można znaleźć w dokumentacji API Lucene (np. <a href="http://lucene.apache.org/core/3_6_0/api/all/org/apache/lucene/util/Attribute.html" target="_blank" rel="noopener noreferrer">http://lucene.apache.org/core/3_6_0/api/all/org/apache/lucene/util/Attribute.html</a>).</li>
<li><em>Linie 12 &#8211; 15 </em>&#8211; konstruktor przyjmujący jako argument strumień tokenów oraz dodający (<em>linia 14</em>) do naszego filtra odpowiedni atrybut strumienia tokenów.</li>
<li><em>Linie 18 &#8211; 30</em> &#8211; implementacja metody <em>incrementToken</em> realizującej właściwe odwracanie napisów.</li>
<li><em>Linie 19 &#8211; 21</em> &#8211; sprawdzenie, czy został jakiś token w strumieniu i jeżeli nie został, to zwrócenie wartości <em>false</em>.</li>
<li><em>Linia 23</em> &#8211; pobranie właściwej wielkości bufora, którego zawartość to napis, który chcemy odwrócić.<br />
<em></em></li>
<li><em>Linia 24</em> &#8211; pobranie bufora, którego zawartość to napis który chcemy odwrócić. Tekst termu przechowywany jest jako tablica typu <em>char</em> i dlatego najbardziej wydajnym rozwiązaniem jest właśnie operacja na tej tablicy, a nie na obiekcie typu String.</li>
<li><em>Linie 25 &#8211; 28</em> &#8211; stworzenie nowego bufora oraz odwracanie aktualnego.</li>
<li><em>Linia 29</em> &#8211; oczyszczenie oryginalnego bufora (konieczne w przypadku korzystania z metod <em>append</em>).</li>
<li><em>Linia 30</em> &#8211; skopiowanie zmian z powrotem do bufora, czyli tak naprawdę zamienienie tego, który pobraliśmy w linii 23, na ten, który został już przetworzony.</li>
<li><em>Linia 31</em> &#8211; zwrócenie wartości <em>true</em>, aby poinformować, iż w buforze jest token do dalszego przetwarzania.</li>
</ul>
<h3>Fabryka</h3>
<p>Tak jak wspomniałem wcześniej, aby móc skorzystać z naszego, wyżej zaimplementowanego filtra, konieczna jest implementacja fabryki. Ze względu na to, że nie mamy żadnych specjalnych opcji konfiguracyjnych, sama implementacja będzie dość prosta i zostanie oparta o klasę <em>BaseTokenFilterFactory</em> z pakietu <em>org.apache.solr.analysis</em>. Sama implementacja mogłaby wyglądać następująco:
</p>
<pre class="brush:java">package pl.solr.analysis;

import org.apache.lucene.analysis.TokenStream;
import org.apache.solr.analysis.BaseTokenFilterFactory;

public class ReverseFilterFactory extends BaseTokenFilterFactory {
  @Override
  public TokenStream create(TokenStream ts) {
    return new ReverseFilter(ts);
  }
}</pre>
<p>Jak widać sama implementacja jest prosta i wymaga od nas nadpisania metody <em>create</em> w której tworzymy nasz filtr i zwracamy go. Nic bardziej prostego.</p>
<h3>Konfiguracja</h3>
<p>Po skompilowaniu i przygotowaniu biblioteki w formacie <em>jar</em>, kopiujemy ją do katalogu, gdzie Solr będzie ją widział. Możemy to uzyskać np. tworząc katalog <em>lib</em> w katalogu domowym Solr, a następnie dodać odpowiedni wpis do pliku <em>solrconfig.xml</em>, np. taki:
</p>
<pre class="brush:xml">&lt;lib dir="../lib/" regex="*.jar" /&gt;</pre>
<p>Następnie zmieniamy plik <em>schema.xml</em> dodając nasz filtr do jednego z typów, na przykład w następujący sposób:
</p>
<pre class="brush:xml">&lt;fieldType name="text_reversed" class="solr.TextField"&gt;
  &lt;analyzer&gt;
    &lt;tokenizer class="solr.WhitespaceTokenizerFactory"/&gt;
    &lt;filter class="pl.solr.analysis.ReverseFilterFactory" /&gt;
  &lt;/analyzer&gt;
&lt;/fieldType&gt;</pre>
<p>Warto zauważyć, iż w w atrybucie <em>class</em> znacznika <em>filter</em> podajemy pełną nazwę pakietu oraz nazwę klasy implementującej fabrykę, a nie implementującą filtr. To ważne, inaczej Solr nie będzie w stanie stworzyć filtra.</p>
<h3>Działanie</h3>
<p>Poniżej zrzut ekranu z panelu administracyjnego Solr ilustrujący działanie filtra:</p>
<p><a href="http://solr.pl/wp-content/uploads/2012/05/ReverseFilter1.png"><img fetchpriority="high" decoding="async" class="alignnone  wp-image-2369" title="ReverseFilter" src="http://solr.pl/wp-content/uploads/2012/05/ReverseFilter1.png" alt="" width="555" height="211"></a></p>
<h3>Podsumowanie</h3>
<p>Jak widać na powyższym przykładzie, implementacja własnego filtra nie jest rzeczą bardzo skomplikowaną. Oczywiście, po raz kolejny podkreślę, iż pokazany przykład jest bardzo prosty, dlatego też sama implementacja należy do prostych. Mam nadzieję, iż po przeczytaniu tego artykułu tworzenie własnych filtrów do Solr będzie łatwiejsze <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/1f642.png" alt="🙂" class="wp-smiley" style="height: 1em; max-height: 1em;" /></p>
<h3></h3>
]]></content:encoded>
					
					<wfw:commentRss>https://solr.pl/2012/05/14/solr-tworzenie-wlasnego-filtra/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Solr filtry: PatternReplaceCharFilter</title>
		<link>https://solr.pl/2011/05/09/solr-filtry-patternreplacecharfilter/</link>
					<comments>https://solr.pl/2011/05/09/solr-filtry-patternreplacecharfilter/#respond</comments>
		
		<dc:creator><![CDATA[Marek Rogoziński]]></dc:creator>
		<pubDate>Mon, 09 May 2011 17:45:06 +0000</pubDate>
				<category><![CDATA[Solr]]></category>
		<category><![CDATA[filtr]]></category>
		<category><![CDATA[filtrowanie]]></category>
		<category><![CDATA[schema]]></category>
		<category><![CDATA[schema.xml]]></category>
		<category><![CDATA[solr]]></category>
		<category><![CDATA[tokenizer]]></category>
		<guid isPermaLink="false">http://sematext.solr.pl/?p=240</guid>

					<description><![CDATA[Kontynuując przeglad filtrów dostępnych w Solr dziś przyglądamy się pracy PatternReplaceCharFilter. Jak łatwo się domyślić zadaniem filtra jest zamiana w strumieniu wejściowym tych fragmentów, które pasują do danego wyrażenia regularnego. Dostępne są następujące parametry: pattern (wymagany) – wartość, która zostanie]]></description>
										<content:encoded><![CDATA[<p>Kontynuując przeglad filtrów dostępnych w Solr dziś przyglądamy się pracy PatternReplaceCharFilter.</p>
<p>Jak łatwo się domyślić zadaniem filtra jest zamiana w strumieniu wejściowym tych fragmentów, które pasują do danego wyrażenia regularnego.</p>
<p><span id="more-240"></span></p>
<p>Dostępne są następujące parametry:</p>
<ul>
<li><em>pattern</em> (wymagany) – wartość, która zostanie zamieniona 	(wyrażenie regularne)</li>
<li><em>replacement</em> (domyślnie: &#8222;&#8221;) &#8211; wartość, którą 	zostanie zastąpiony dopasowany do wyrażenia regularnego fragment</li>
<li><em>blockDelimiters</em></li>
<li><em>maxBlockChars</em> (domyślnie: 10000, większe od 0) – bufor używany przy porówaniu</li>
</ul>
<h2>Przykłady wykorzystania</h2>
<p>Wykorzystanie filtru sprowadza się do dodania jego definicji w definicji typu pola w schema.xml np.:
</p>
<pre class="brush:xml">&lt;fieldType name="textCharNorm" class="solr.TextField"&gt;
  &lt;analyzer&gt;
    &lt;charFilter class="solr.PatternReplaceCharFilterFactory" …/&gt;
    &lt;charFilter class="solr.MappingCharFilterFactory" mapping="mapping-ISOLatin1Accent.txt"/&gt;
    &lt;tokenizer class="solr.WhitespaceTokenizerFactory"/&gt;
  &lt;/analyzer&gt;
&lt;/fieldType&gt;</pre>
<p>Poniżej przykładowe definicje dla różnych przypadków.</p>
<h3>Wycinanie fragmentów tekstu</h3>
<p>To najprostszy przypadek. Należy tylko podać w atrybucie pattern to co chcemy wyciąć i już. Przykład:
</p>
<pre class="brush:xml">&lt;charFilter class="solr.PatternReplaceCharFilterFactory" pattern="#TAG" /&gt;</pre>
<p>co spowoduje pomijanie w treści danych elementów: &#8222;#TAG&#8221;</p>
<h3>Zamiana fragmentów tekstu</h3>
<p>Przypadek podobny do tego wyżej, natomiast chcemy zamienić tekst na inny.
</p>
<pre class="brush:xml">&lt;charFilter class="solr.PatternReplaceCharFilterFactory" pattern="#TAG" replacement="[CENZORED]"/&gt;</pre>
<h3>Zamiana wzorców</h3>
<p>Powyższe przypadki były trywialne. To, co stanowi o sile tego filtru to obsługa wyrażeń regularnych. (Używasz wyrażeń regularnych, prawda?) Poniższy przykład jest prosty – ukrywa  wszystkie liczby (zamieniając je na gwiazdki). Radzi sobie również z liczbami oddzielonymi myślnikami, traktując je jako pojedyncze liczby.
</p>
<pre class="brush:xml">&lt;charFilter class="solr.PatternReplaceCharFilterFactory" pattern="(\\d+-*\\d+)+" replacement="*"/&gt;</pre>
<h3>Manipulacja tekstem</h3>
<p>Tekst zastępujący nie musi być prostym tekstem. Obsługiwane są tzw. odwołania wsteczne, które pozwalają na odwołanie się do fragmentów dopasowanego wzorca. Po szczegóły odsyłam do dokumentacji wyrażeń regularnych. W poniższym przykładzie wszystkie zwielokrotnione znaki zastępowane są znakiem pojedynczym.
</p>
<pre class="brush:xml">&lt;charFilter class="solr.PatternReplaceCharFilterFactory" pattern="(.)\\1" replacement="$1"/&gt;</pre>
<h2>Parametry zaawansowane</h2>
<p>Do tej pory nie wspomniałem o parametrach: <em>blockDelimiters</em> i <em>maxBlockChars</em>. Jak wynika ze źródeł filtra, są one związane ze sposobem jego implementacji. <em>CharFilter</em> z założenia operuje na pojedynczych znakach, natomiast dopasowanie wzorca wymaga wczytania do wewnętrznego bufora większej liczby znaków. <em>MaxBlockChars</em> pozwala na okreśłenie rozmiaru tego bufora. W zasadzie nie musisz się tym martwić, jeśli wzorzec, który zdefiniowałeś, nie powoduje dopasowania większego kawałka tekstu (większy oznacza tu powyżej 10tys znaków). <em>BlockDelimiters</em> pozwala dodatkowo zoptymalizować wypełnianie tego bufora. Może być używany, jeśli informacja w analizowanym polu jest w jakiś sposób podzielona na sekcje (np. jest to CSV, zdania itp.). Jest to tekst, który informuje skaner, że zaczyna się nowa sekcja, w związku z tym, ew fragmenty dopasowania z poprzedniej sekcji już się nie przydadzą.</p>
<h2>Ograniczenia</h2>
<p>Ważnym ograniczeniem filtra jest to, że w bezpośredni sposób manipuluje napisem wejściowym, nie zachowując informacji związanych z początkowym tekstem. Oznacza to, że jeśli filtr usunie jakiś fragment napisu, lub doda nowy fragment, tokenizer tego nie zauważy i położenie tokenów w oryginalnym polu nie zostanie poprawnie zapisane. Trzeba mieć tego świadomość w sytuacji używania zapytań biorących pod uwagę wzajemne położenie słów oraz w przypadku używania highlightingu.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://solr.pl/2011/05/09/solr-filtry-patternreplacecharfilter/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Kilka słów o optymalizacji &#8211; filter cache</title>
		<link>https://solr.pl/2011/02/07/kilka-slow-o-optymalizacji-filter-cache/</link>
					<comments>https://solr.pl/2011/02/07/kilka-slow-o-optymalizacji-filter-cache/#respond</comments>
		
		<dc:creator><![CDATA[Rafał Kuć]]></dc:creator>
		<pubDate>Mon, 07 Feb 2011 08:02:49 +0000</pubDate>
				<category><![CDATA[Solr]]></category>
		<category><![CDATA[cache]]></category>
		<category><![CDATA[filter]]></category>
		<category><![CDATA[filter cache]]></category>
		<category><![CDATA[filterCache]]></category>
		<category><![CDATA[filtr]]></category>
		<category><![CDATA[filtrowanie]]></category>
		<category><![CDATA[query]]></category>
		<guid isPermaLink="false">http://sematext.solr.pl/?p=180</guid>

					<description><![CDATA[Dzisiejszy wpis poświęcony został jednemu z typów cache w Solr &#8211; filter cache. Postaram się przedstawić do czego służy, jak go skonfigurować i jak go optymalnie wykorzystywać. Zapraszam do lektury. Co przechowuje Zacznijmy od środka. FilterCache przechowuje nieuporządkowany zbiór identyfikatorów]]></description>
										<content:encoded><![CDATA[<p>Dzisiejszy wpis poświęcony został jednemu z typów cache w Solr &#8211; filter cache. Postaram się przedstawić do czego służy, jak go skonfigurować i jak go optymalnie wykorzystywać. Zapraszam do lektury.</p>
<p><span id="more-180"></span></p>
<h3>Co przechowuje</h3>
<p>Zacznijmy od środka. FilterCache przechowuje nieuporządkowany zbiór identyfikatorów dokumentów. Oczywiście nie są to identyfikatory zdefiniowanie w pliku <em>schema.xml</em> jako unikalny klucz, a wewnętrzne identyfikatory dokumentów używane przez Lucene i Solr &#8211; warto o tym pamiętać.</p>
<h3>Do czego służy</h3>
<p>Głównym zadaniem <em>filterCache </em>jest przechowywanie wyników związanych z wykorzystaniem filtrów. Aczkolwiek nie jest to jego jedyne zastosowanie. Oprócz tego cache ten może służyć jako pomoc przy facetingu (w przypadku korzystania z metody <em>TermEnum</em>) oraz do sortowania w przypadku określenia opcji <em>&lt;useFilterForSortedQuery/&gt;</em> na <em>true</em> w pliku<em> solrconfig.xml</em>.</p>
<h3>Definicja</h3>
<p>Standardowa definicja filterCache wygląda następująco:
</p>
<pre class="brush:xml">&lt;filterCache
      class="solr.FastLRUCache"
      size="16384"
      initialSize="4096"
      autowarmCount="4096" /&gt;</pre>
<p>Dostępne są następujące opcje konfiguracyjne:</p>
<ul>
<li><em>class </em>&#8211; klasa odpowiadająca za implementację. Do <em>filterCache </em>polecam korzystanie z <em>solr.FastLRUCache</em>, który charakteryzuje się większą wydajnością w przypadku większej ilości operacji GET, niż PUT.</li>
<li><em>size </em>&#8211; maksymalna ilość wpisów jaka może znaleźć się w cache&#8217;u.</li>
<li><em>initialSize </em>&#8211; początkowa wielkość cache&#8217;u.</li>
<li><em>autowarmCount </em>&#8211; ilość wpisów jaka będzie przepisywana podczas rozgrzewania ze starego cache&#8217;u do nowego.</li>
<li><em>minSize </em>&#8211; wartość określająca do jakiej ilości wpisów Solr będzie próbował redukować cache w przypadku pełnego uzupełnienia.</li>
<li><em>acceptableSize </em>&#8211; jeżeli Solr nie będzie w stanie sprowadzić ilości wpisów do tej określonej za pomocą parametru <em>minSize</em>, to wartość <em>acceptableSize</em> będzie tą, do której będzie dążył jako kolejnej.</li>
<li><em>cleanupThread </em>&#8211; wartość domyślna to <em>false</em>. W przypadku ustawienia na <em>true</em> do czyszczenia cache&#8217;u będzie wykorzystywany oddzielny wątek.</li>
</ul>
<p>W większości przypadków wykorzystanie parametrów <em>size</em>, <em>initialSize</em> oraz <em>autowarmCount </em>jest w zupełności wystarczające.</p>
<h3>Jak skonfigurować</h3>
<p>Wielkość cache&#8217;u powinna być określana na podstawie zapytań, które wysyłane są do Solr. Maksymalna wielkość <em>filterCache </em>powinna być przynajmniej tak duża jak ilość filtrów (wraz z wartościami) jaką wykorzystujemy. Oznacza to, że jeżeli nasza aplikacja charakteryzuje się, w zadanym okresie czasu, wykorzystaniem np. 2000 różnych filtrów (parametrów <em>fq</em> wraz z wartościami), to parametr <em>size</em> powinien być ustawiony na wartości minimum 2000.</p>
<h3>Efektywne wykorzystanie</h3>
<p>Jednak samo skonfigurowanie cache&#8217;u to nie koniec &#8211; ważne, aby zapytania potrafiły to wykorzystać. Weźmy na przykład zapytanie:
</p>
<pre class="brush:xml">q=nazwa:solr+AND+kategoria:ksiazka+AND+dzial:ksiazki</pre>
<p>Na pierwszy rzut oka zapytanie jest jak najbardziej poprawne. Jest z nim jednak jeden problem &#8211; nie korzysta z <em>filterCache</em>. Całe zapytanie zostanie obsłużone przez <em>queryResultCache</em> i stworzy w nim pojedynczy wpis. Zmodyfikujemy je trochę i zadajmy je w następujący sposób.
</p>
<pre class="brush:xml">q=nazwa:solr&amp;fq=kategoria:ksiazka&amp;fq=dzial:ksiazki</pre>
<p>Co się stanie teraz ? Tak jak w poprzednim wypadku, stworzony zostanie jeden wpis w <em>queryResultCache</em> oraz dwa wpisy w <em>filterCache</em>. Dlaczego jest to ważne ? Weźmy kolejne zapytanie:
</p>
<pre class="brush:xml">q=nazwa:lucene&amp;fq=kategoria:ksiazka&amp;fq=dzial:ksiazki</pre>
<p>To zapytanie stworzyłoby kolejny wpis w <em>queryResultCache</em> oraz wykorzystałoby dwa już istniejące w <em>filterCache</em> wpisy, a tym samym Solr skróciłbym czas wykonania zapytaniai oszczędziłby operacji I/O na indeksie.</p>
<p>Jeżeli natomiast wykonalibyśmy zapytanie w postaci:
</p>
<pre class="brush:xml">q=nazwa:lucene+AND+kategoria:ksiazka+AND+dzial:ksiazki</pre>
<p>Solr nie byłby w stanie wykorzystać żadnych informacji z cache&#8217;u i musiałby w celu zalezienia wyników pobierać wszystkie informacje z indeksu Lucene.</p>
<h3>Kilka słów na koniec</h3>
<p>Jak widać, samo skonfigurowanie cache&#8217;u w poprawny sposób nie gwarantuje tego, że Solr będzie w stanie go wykorzystać. To od tego jak zadajemy zapytania zależy, jak wydajny w docelowym wdrożeniu będzie Solr. Warto o tym pamiętać podczas planowania wdrożenia.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://solr.pl/2011/02/07/kilka-slow-o-optymalizacji-filter-cache/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Co to jest schema ?</title>
		<link>https://solr.pl/2010/08/16/co-to-jest-schema/</link>
					<comments>https://solr.pl/2010/08/16/co-to-jest-schema/#respond</comments>
		
		<dc:creator><![CDATA[Rafał Kuć]]></dc:creator>
		<pubDate>Mon, 16 Aug 2010 14:07:45 +0000</pubDate>
				<category><![CDATA[Solr]]></category>
		<category><![CDATA[analiza]]></category>
		<category><![CDATA[filtr]]></category>
		<category><![CDATA[indeks]]></category>
		<category><![CDATA[index]]></category>
		<category><![CDATA[pole]]></category>
		<category><![CDATA[schema]]></category>
		<category><![CDATA[schema.xml]]></category>
		<category><![CDATA[solr]]></category>
		<category><![CDATA[tokenizer]]></category>
		<category><![CDATA[typ]]></category>
		<category><![CDATA[typ pola]]></category>
		<category><![CDATA[type]]></category>
		<guid isPermaLink="false">http://sematext.solr.pl/?p=24</guid>

					<description><![CDATA[Jednym z plików konfiguracyjnych opisujących każde wdrożenie Solr jest plik schema.xml. Opisuje on jedną z najważniejszych rzeczy dotyczącą wdrożenia &#8211; strukturę indeksu. Informacje zawarte w tym pliku pozwalają kontrolować, jak zachowuje się Solr podczas indeksowania danych, czy też zadawania zapytań]]></description>
										<content:encoded><![CDATA[<p>Jednym z plików konfiguracyjnych opisujących każde wdrożenie Solr jest plik <em>schema.xml</em>. Opisuje on jedną z najważniejszych rzeczy dotyczącą wdrożenia &#8211; strukturę indeksu. Informacje zawarte w tym pliku pozwalają kontrolować, jak zachowuje się Solr podczas indeksowania danych, czy też zadawania zapytań do odpowiednich pól. <em>Schema.xml</em> to jednak nie tylko sama struktura indeksu, to także szczegółowe informacje o typach danych, które mają duży wpływ na zachowanie Solr, a z reguły są traktowane po macoszemu. Tym wpisem postaram się przybliżyć składowe pliku <em>schema.xml</em>.</p>
<p><span id="more-24"></span></p>
<p>Plik <em>schema.xml</em> składa się z kilku części:</p>
<ul>
<li> wersji,</li>
<li>definicji typów,</li>
<li>definicji pól,</li>
<li>sekcji <em>copyField</em>,</li>
<li>dodatkowych definicji.</li>
</ul>
<h3>Wersja</h3>
<p>Pierwszą rzeczą na jaką natrafimy w pliku schema.xml jest wersja. Jest to informacja o tym jak Solr ma traktować niektóre z atrybutów w pliku schema.xml. Definicja ta wygląda następująco:
</p>
<pre class="brush:xml">&lt;schema name="example" version="1.3"&gt;</pre>
<p>Należy pamiętać, iż nie jest to definicja wersji z punktu widzenia naszego projektu. W tym momencie Solr obsługuje 4 wersje pliku <em>schema.xml</em>:</p>
<ul>
<li>1.0 &#8211; nie istniał atrybut <em>multiValued</em>, wszystkie pola były domyślnie wielowartościowe.</li>
<li>1.1 &#8211; wprowadzono atrybut <em>multiValued</em>, domyślna wartość atrybutu to <em>false</em>.</li>
<li>1.2 &#8211; wprowadzono atrybut <em>omitTermFreqAndPositions</em>, domyślna wartość to <em>true </em>dla wszystkich pól, oprócz pól tekstowych.</li>
<li>1.3 &#8211; usunięto opcjonalną możliwość kompresji pól.</li>
</ul>
<h3>Definicje typów</h3>
<p>Definicje typów można logicznie podzielić na dwie oddzielne sekcje &#8211; typy proste i typy złożone. Typy proste w przeciwieństwie do typów złożonych nie posiadają zdefiniowanych filtrów i tokenizera.</p>
<p><strong>Typy proste</strong></p>
<p>Kolejnymi definicjami, na jakie trafimy w pliku<em> schema.xml</em> są definicje typów z których składać się będzie nasz indeks. Każdy z typów opisany jest szeregiem atrybutów, które opisują zachowanie danego typu. Na początek kilka atrybutów, które opisują każdy typ:</p>
<ul>
<li><em>name </em>&#8211; nazwa typu, atrybut wymagany,</li>
<li><em>class </em>&#8211; klasa, która odpowiada za implementację typu. Warto pamiętać, że  klasy standardowo dostarczane z Solr będą miały nazwy z przedrostkiem  'solr&#8217;.</li>
</ul>
<p>Oprócz dwóch wymienionych powyżej, typy mogą mieć jeszcze następujące atrybuty opcjonalne:</p>
<ul>
<li><em>sortMissingLast</em> &#8211; atrybut określający, jak mają być traktowane wartości w polu opartym o ten typ podczas sortowania. W przypadku ustawienia na wartość <em>true </em>na końcu listy wyników zawsze będą dokumenty nie posiadające wartości w polach oparty o dany typ &#8211; bez względu na to, czy sortujemy rosnąco, czy malejąco. Domyślna wartość atrybutu to <em>false</em>. Atrybut może być stosowany, tylko w przypadku typów, które przez Lucene traktowane są jako string.</li>
<li><em>sortMissingFirst </em>&#8211; atrybut określający, jak mają być traktowane wartości  w polu opartym o ten typ podczas sortowania. W przypadku ustawienia na  wartość true na początku listy wyników zawsze będą dokumenty nie  posiadające wartości w polach oparty o dany typ &#8211; bez względu na to, czy  sortujemy rosnąco, czy malejąco. Domyślna wartość atrybutu to <em>false</em>.  Atrybut może być stosowany, tylko w przypadku typów, które przez Lucene  traktowane są jako string.</li>
<li><em>omitNorms </em>&#8211; atrybut określający, czy podczas analizy mają być wyliczane normalizacje.</li>
<li><em>omitTermFreqAndPositions </em>&#8211; atrybut określający, czy podczas analizy ma  być pomijane wyliczanie częstotliwości poszczególnych termów oraz ich  pozycji w dokumencie.</li>
<li><em>indexed </em>&#8211; atrybut określający, czy pola oparte o ten typ mają przechowywać oryginalne wartości.</li>
<li><em>positionIncrementGap </em>&#8211; co ile pozycji (a dokładniej pozycji tokenów w strumieniu tokenów) ma być wyliczane trafienie.</li>
</ul>
<p>Warto pamiętać, iż w przypadku domyślnego ustawienia atrybutów sortMissingLast i sortMissingFirst Lucene będzie stosować zachowanie polegające na umieszczeniu dokumentów z pustymi wartościami na początku w przypadku sortowania rosnącego, a na końcu listy wyników w przypadku sortowania malejącego.</p>
<p>Kolejną opcją typów prostych, jednak dotyczącą tylko nowych typów liczbowych (typy<em> Trie*Field</em>), jest następujący atrybut:</p>
<ul>
<li><em>precisionStep </em>&#8211; atrybut określający ilość bitów precyzji. Im większa ilość bitów, tym szybsze zapytania oparte o przedziały liczbowe. Wiąże się to jednak także ze wzrostem wielkości indeksu, jako, że indeksowanych jest więcej wartości. Ustawienie wartości atrybutu na 0 wyłącza funkcjonalność indeksowania na różnych precyzjach.</li>
</ul>
<p>Przykładem zdefiniowanego typu prostego może być na przykład:
</p>
<pre class="brush:xml">&lt;fieldType name="string" class="solr.StrField" sortMissingLast="true" omitNorms="true"/&gt;</pre>
<p><strong>Typy złożone</strong></p>
<p>Oprócz typów prostych, plik <em>schema.xml</em> może zawierać typy składające się z tokenizera oraz filtrów. Tokenizer odpowiada za podzielenie zawartości pola na tokeny, natomiast filtry odpowiadają za dalszą analizę. Na przykład typ, który odpowiada za przechowywanie tekstów w języku polskim, mogłoby składać się z tokenizera odpowiadającego za dzielenie słów na podstawie białych znaków oraz kropek i przecinków, a przykładowe filtry mogłyby odpowiadać za sprowadzanie powstałych tokenów do małych liter, dalsze dzielenie tokenów (np. na podstawie myślników), a następnie sprowadzanie tokenów do formy podstawowej.</p>
<p>Typy złożone, tak jak typy proste, mają swoją nazwę (atrybut <em>name</em>) oraz klasę która odpowiada za implementację (atrybut <em>class</em>). Mogą się także charakteryzować innymi atrybutami opisanymi w przypadku typów prostych (na tych samych zasadach). Dodatkowo jednak typy złożone mogą posiadać definicję tokenizera oraz filtrów, które mają być wykorzystane na etapie indeksowania, jak i na etapie zadawania zapytań. Jak zapewne większość wie, dla danego etapu (indeksowanie, bądź zadawanie zapytań) może być zdefiniowany szereg filtrów oraz tylko i wyłącznie jeden tokenizer. Przykładowo, tak wygląda definicja typu tekstowego w przykładowej instalacji dostarczanej razem z Solr:
</p>
<pre class="brush:xml">&lt;fieldType name="text" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="true"&gt;
   &lt;analyzer type="index"&gt;
      &lt;tokenizer class="solr.WhitespaceTokenizerFactory"/&gt;
      &lt;filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" /&gt;
      &lt;filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/&gt;
      &lt;filter class="solr.LowerCaseFilterFactory"/&gt;
      &lt;filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/&gt;
      &lt;filter class="solr.PorterStemFilterFactory"/&gt;
   &lt;/analyzer&gt;
   &lt;analyzer type="query"&gt;
      &lt;tokenizer class="solr.WhitespaceTokenizerFactory"/&gt;
      &lt;filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/&gt;
      &lt;filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" /&gt;
      &lt;filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/&gt;
      &lt;filter class="solr.LowerCaseFilterFactory"/&gt;
      &lt;filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/&gt;
      &lt;filter class="solr.PorterStemFilterFactory"/&gt;
   &lt;/analyzer&gt;
&lt;/fieldType&gt;</pre>
<p>Warto zauważyć dodatkowy atrybut dla pola tekstowego:</p>
<ul>
<li><em>autoGeneratePhraseQueries</em></li>
</ul>
<p>Atrybut odpowiada za to, jak zachowują się filtry przy rozdzielaniu tokenów. Niektóre z filtrów (taki, jak np. <em>WordDelimiterFilter</em>) pozwala na dzielenie słów np. za pomocą znaku myślnika. Ustawienie atrybutu na wartość true (wartość domyślna) powoduje automatyczne generowanie zapytań o frazę, czyli tzw. <em>PhraseQueries</em>. Oznacza to, że np. dla słowa &#8222;wi-fi&#8221;, które zostanie rozbite przez filtr WordDelimiterFilter na słowa &#8222;wi&#8221; oraz &#8222;fi&#8221; zostanie wygenerowane zapytanie <code>pole:"wi fi"</code>, a nie zapytanie <code>pole:wi OR pole:fi</code>. Należy jednak pamiętać, iż atrybut ten potrafi gubić się w przypadku pól, które mają zdefiniowany tokenizer dzielący słowa inaczej, niż po białych znakach.</p>
<p>Wracając do definicji typu. Jak widać, przykład który podałem ma dwie główne sekcje:
</p>
<pre class="brush:xml">&lt;analyzer type="index"&gt;</pre>
<p>oraz
</p>
<pre class="brush:xml">&lt;analyzer type="query"&gt;</pre>
<p>Pierwsza z sekcji odpowiada za definicję typu, która będzie użyta w przypadku indeksowania dokumentów, druga sekcja odpowiada za definicję typu używaną w przypadku zapytań do pól opartych o ten typ. Warto wiedzieć, że jeżeli chcemy korzystać z tej samej definicji dla indeksowania i zadawania zapytań, możemy zrezygnować z obu sekcji. Wtedy nasza definicja typu wyglądałaby na przykład następująco:
</p>
<pre class="brush:xml">&lt;fieldType name="text" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="true"&gt;
   &lt;tokenizer class="solr.WhitespaceTokenizerFactory"/&gt;
   &lt;filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" /&gt;
   &lt;filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/&gt;
   &lt;filter class="solr.LowerCaseFilterFactory"/&gt;
   &lt;filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/&gt;
   &lt;filter class="solr.PorterStemFilterFactory"/&gt;
&lt;/fieldType&gt;</pre>
<p>Jak już wspomniałem w definicji każdego typu złożonego występuje jeden tokenizer oraz szereg filtrów (choć nie koniecznie). Nie będę opisywał poszczególnych opcji każdego z filtrów oraz tokenizerów dostępnych standardowo z Solr. Informacje te dostępne są pod następującym adresem: <a href="http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters" target="_blank" rel="noopener noreferrer">http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters</a>.</p>
<p>Na koniec chciałem dodać ważną rzecz. Począwszy od Solr 1.4 tokenizer nie musi być pierwszym mechanizmem jaki zajmuje się analizą danego pola &#8211; zostały wprowadzone nowe filtry tzw. Char Filters, które operują na nietokenizowanym jeszcze polu i dopiero później przekazują wynik do tokenizera. Warto o tym wiedzieć, ponieważ może się to kiedyś przydać.</p>
<p><strong>Typy wielowymiarowe</strong></p>
<p>Na koniec zostawiłem sobie mały dodatek &#8211; opis nowości w Solr 1.4 &#8211; pól wielowymiarowych, czyli pól składających się z szeregu innych pól. Ogólnie można powiedzieć, iż założenie tego typu pól było proste &#8211; umożliwić przechowywanie w Solr par, trójek, czy większej ilości powiązanych ze sobą danych, takich jak na przykład współrzędne geograficzne punktu. W praktyce realizowane jest to za pomocą pól dynamicznych, jednak pozwolę sobie nie wgłębiać się w szczegóły implementacji. Przykładowa definicja typu, składającego się z dwóch pól:
</p>
<pre class="brush:xml">&lt;fieldType name="location" class="solr.PointType" dimension="2" subFieldSuffix="_d"/&gt;</pre>
<p>Oprócz standardowych atrybutów <em>name </em>oraz <em>class </em>pojawiają się dwa nowe:</p>
<ul>
<li><em>dimension </em>&#8211; ilość wymiarów (atrybut wykorzystywany przez klasę <em>solr.PointType)</em>.</li>
<li><em>subFieldSuffix </em>&#8211; przyrostek, jaki będzie dodawany do pól dynamicznych  wchodzących w skład pola. Ważne aby pamiętać, iż tak zdefiniowane pole  stworzy trzy pola w indeksie &#8211; pole oparte o typ <em>location </em>oraz dwa pola dynamiczne<em></em><em></em>.</li>
</ul>
<h3>Definicje pól</h3>
<p>Definicje pól to kolejna sekcja w pliku <em>schema.xml</em>, to sekcja, która teoretycznie powinna interesować nas najbardziej podczas projektowania indeksu Solr. Z reguły znajdziemy tutaj dwa rodzaje definicji pól:</p>
<ol>
<li>Pola statyczne</li>
<li>Pola dynamiczne</li>
</ol>
<p>Pola te są różnie traktowane przez Solr. Pierwszy typ pól, to pola, które dostępne są pod jedną nazwą. Pola dynamiczne, jako nazwę mają proste wyrażenie regularne (nazwa zaczynająca się lub kończąca się znakiem '*&#8217;). Należy pamiętać, iż Solr najpierw wybiera pole statyczne, a dopiero później pola dynamiczne. Dodatkowo w przypadku nazwy pola, która pasuje do więcej, niż jednej definicji, wybrane zostanie pole z dłuższą definicją nazwy.</p>
<p>Wracając do definicji pól (zarówno statycznych, jak i dynamicznych), składają się one z następujących atrybutów:</p>
<ul>
<li><em>name </em>&#8211; nazwa pola (atrybut wymagany).</li>
<li><em>type </em>&#8211; typ pola, czyli jeden z typów zdefiniowanych wcześniej (atrybut wymagany).</li>
<li><em>indexed </em>&#8211; czy pole ma być indeksowane (ustawiamy na wartość <em>true</em>, jeżeli chcemy wyszukiwać lub sortować po tym polu).</li>
<li><em>stored </em>&#8211; czy mają być przechowywane oryginalne wartości (ustawiamy na  wartość <em>true</em>, jeżeli chcemy pobierać oryginalną wartość przekazaną do  tego pola).</li>
<li><em>omitNorms </em>&#8211; czy ma być pomijane wyliczanie norm dla tego pola (ustawiamy  na wartość <em>true </em>dla pól, dla których będziemy stosować wyszukiwanie pełnotekstowe).</li>
<li><em>termVectors </em>&#8211; ustawiamy na wartość true w przypadku kiedy chcemy  przechowywać tzw. wektor termów. Domyślna wartość parametru, to wartość <em> false</em>. Niektóre funkcjonalności wymagają ustawienia tego parametru na <em> true </em>(np. <em>MoreLikeThis</em>, czy <em>FastVectorHighlighting</em>).</li>
<li><em>termPositions </em>&#8211; ustawiamy na wartość <em>true</em>, jeżeli chcemy aby wraz z  wektorem przechowywane były pozycje termów. Ustawienie na wartość <em>true </em>spowoduje wzrost wielkości indeksu.</li>
<li><em>termOffsets </em>&#8211; ustawiamy na wartość <em>true</em>, jeżeli chcemy aby wraz z  wektorem termów przechowywane były przesunięcia. Ustawienie na wartość <em> true </em>spowoduje wzrost wielkości indeksu.</li>
<li><em>default </em>&#8211; domyślna wartość jaka ma zostać nadana polu, jeżeli w dokumencie nie było podanej żadnej wartości.</li>
</ul>
<p>Poniżej przykładowe definicje pól:
</p>
<pre class="brush:xml">&lt;field name="id" type="string" indexed="true" stored="true" required="true" /&gt;
&lt;field name="includes" type="text" indexed="true" stored="true" termVectors="true" termPositions="true" termOffsets="true" /&gt;
&lt;field name="timestamp" type="date" indexed="true" stored="true" default="NOW" multiValued="false"/&gt;
&lt;dynamicField name="*_i" type="int" indexed="true" stored="true"/&gt;</pre>
<p>Na koniec jeszcze dodatkowa informacja o której warto pamiętać. Oprócz atrybutów wymienionych powyżej przy definicji pola możemy nadpisywać atrybuty jakie zostały zdefiniowane dla typu (np. czy pole ma być wielowartościowe &#8211; z powyższego przykładu pole o nazwie timestamp). Czasami taka funkcjonalność może się przydać, jeżeli potrzebujemy specyficznego pola, którego typ różni się nieznacznie od innego typu (tak jak w przykładzie &#8211; tylko atrybutem multiValued). Oczywiście należy pamiętać o ograniczeniach nakładanych na poszczególne atrybuty związane z typami.</p>
<h3>Sekcja copyField</h3>
<p>W skrócie sekcja odpowiadająca za kopiowanie zawartości pól do innych pól. Definiujemy z jakiego pola ma być skopiowana zawartość oraz do jakiego pola. Należy pamiętać, iż kopiowana jest zawartość przed analizą, czy wartość jaka przychodzi w danych. Przykład definicji copyField:
</p>
<pre class="brush:xml">&lt;copyField source="category" dest="text"/&gt;</pre>
<p>W gwoli ścisłości, występujące atrybuty oznaczają:</p>
<ul>
<li><em>source </em>&#8211; pole źródłowe,</li>
<li><em>dest </em>&#8211; pole docelowe.</li>
</ul>
<h3>Dodatkowe definicje</h3>
<p><strong>1. Zdefiniowanie unikalnego klucza</strong></p>
<p>Definicja unikalnego klucza, dzięki któremu możliwe będzie jednoznaczne zidentyfikowanie dokumentu. Zdefiniowanie unikalnego klucza nie jest konieczne, ale jest zalecane. Przykładowa definicja:
</p>
<pre class="brush:xml">&lt;uniqueKey&gt;id&lt;/uniqueKey&gt;</pre>
<p><strong>2. Zdefiniowanie domyślnego pola wyszukiwania</strong></p>
<p>Sekcja odpowiadająca za zdefiniowanie domyślnego pola, w którym Solr ma wyszukiwać w przypadku kiedy nie zostało podane żadne pole. Przykładowa definicja:
</p>
<pre class="brush:xml">&lt;defaultSearchField&gt;content&lt;/defaultSearchField&gt;</pre>
<p><strong>3. Zdefiniowanie domyślnego operatora logicznego</strong></p>
<p>Sekcja odpowiadająca za definicje domyślnego operatora logicznego, który będzie używany, jeżeli nie zostanie podany żaden operator logiczny. Przykładowa definicja wygląda w następujący sposób:
</p>
<pre class="brush:xml">&lt;solrQueryParser defaultOperator="OR"/&gt;</pre>
<p>Możliwe wartości to: <em>OR </em>oraz <em>AND</em>.</p>
<p><strong>4. Zdefiniowanie podobieństwa</strong></p>
<p>Na koniec zostaje nam zdefiniowanie podobieństwa, jakie będziemy wykorzystywać. Jest to raczej temat na inny wpis, należy jednak wiedzieć, iż w razie konieczności mamy możliwość zmiany domyślnego podobieństwa (aktualnie w trunku Solr są już dwie klasy obsługujące podobieństwo). Przykładowa definicja wygląda następująco:
</p>
<pre class="brush:xml">&lt;similarity class="pl.solr.similarity.CustomSimilarity" /&gt;</pre>
<h3>Kilka słów na koniec</h3>
<p>Powyżej przedstawione informacje powinny dać pewien wgląd na temat jakim jest plik <em>schema.xml</em> oraz za co odpowiadają poszczególne sekcje w tym pliku. W niedługim czasie postaram się napisać, czego wystrzegać się podczas projektowania indeksu.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://solr.pl/2010/08/16/co-to-jest-schema/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
	</channel>
</rss>
