<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>indeks &#8211; Solr.pl</title>
	<atom:link href="https://solr.pl/tag/indeks/feed/" rel="self" type="application/rss+xml" />
	<link>https://solr.pl</link>
	<description>All things to be found - Blog related to Apache Solr &#38; Lucene projects - https://solr.apache.org</description>
	<lastBuildDate>Wed, 11 Nov 2020 22:37:40 +0000</lastBuildDate>
	<language>pl-PL</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9</generator>
	<item>
		<title>Kopia bezpieczeństwa indeksu</title>
		<link>https://solr.pl/2012/08/13/kopia-bezpieczenstwa-indeksu/</link>
					<comments>https://solr.pl/2012/08/13/kopia-bezpieczenstwa-indeksu/#respond</comments>
		
		<dc:creator><![CDATA[Rafał Kuć]]></dc:creator>
		<pubDate>Mon, 13 Aug 2012 21:37:12 +0000</pubDate>
				<category><![CDATA[Solr]]></category>
		<category><![CDATA[backup]]></category>
		<category><![CDATA[indeks]]></category>
		<category><![CDATA[kopia zapasowa]]></category>
		<category><![CDATA[replikacja]]></category>
		<guid isPermaLink="false">http://sematext.solr.pl/?p=431</guid>

					<description><![CDATA[Czy zastanawialiście się kiedyś jak wykonać kopię bezpieczeństwa indeksu w Solr korzystając z dostępnych narzędzi ? Na przykład tak, aby po każdej operacji commit lub optimize otrzymywać kopię bezpieczeństwa ? A może chcielibyście wykonywać kopię własnoręcznie z wykorzystaniem wywołać API]]></description>
										<content:encoded><![CDATA[<p>Czy zastanawialiście się kiedyś jak wykonać kopię bezpieczeństwa indeksu w Solr korzystając z dostępnych narzędzi ? Na przykład tak, aby po każdej operacji <em>commit</em> lub <em>optimize</em> otrzymywać kopię bezpieczeństwa ? A może chcielibyście wykonywać kopię własnoręcznie z wykorzystaniem wywołać API HTTP oferowanego przez Solr. Zobaczmy zatem jakie mamy możliwości.</p>
<p><span id="more-431"></span></p>
<h3>Na początek</h3>
<p>Zdecydowaliśmy się opisać te zagadnienie pomimo tego, iż jest bardzo proste. Zauważyliśmy jednak, iż dużo ludzi zapomina o oczywistych funkcjonalnościach, nie tylko w przypadku Apache Solr. Mamy nadzieję, że ten wpis przypomni użytkownikom o tej funkcjonalności, przynajmniej tym, którzy będą jej potrzebować. Zacznijmy od stanu początkowego &#8211; zawartość katalogu, w której znajduje się indeks, przed rozpoczęciem testów wyglądała następująco:
</p>
<pre class="brush:bash">drwxrwxr-x 2 gr0 gr0 4096 2012-08-12 20:17 index
drwxrwxr-x 2 gr0 gr0 4096 2012-08-12 20:16 spellchecker</pre>
<h3>Ręczna Kopia Bezpieczeństwa</h3>
<p>Aby wykonać ręczną kopię bezpieczeństwa indeksu, przy pomocy wywołania API HTTP, należy mieć skonfigurowany handler odpowiadający za replikację. Jeżeli handler ten jest obecny, wysyłamy do niego (na serwerze&nbsp;<em>master</em>) parametr command z wartością <em>backup</em>, na przykład:
</p>
<pre class="brush:xml">curl 'http://localhost:8983/solr/replication?command=backup'</pre>
<p>Spowoduje to utworzenie kopii bezpieczeństwa naszego indeksu. Tak wygląda katalog w którym znajduje się indeks po wykonaniu powyższego polecenia:
</p>
<pre class="brush:bash">drwxrwxr-x 2 gr0 gr0 4096 2012-08-12 20:18 index
drwxrwxr-x 2 gr0 gr0 4096 2012-08-12 20:19 snapshot.20120812201917
drwxrwxr-x 2 gr0 gr0 4096 2012-08-12 20:16 spellchecker</pre>
<p>Jak widać kopia zapasowa indeksu została utworzona w katalogu <em>snapshot.20120812201917</em>.</p>
<h3>Automatyczna Kopia Bezpieczeństwa</h3>
<p>Oprócz ręcznego tworzenia kopii bezpieczeństwa mamy także możliwość wykonania kopii indeksu po każdej operacji commit, bądź <em>optimize</em>. Jeżeli twój indeks zmienia się bardzo często sugerujemy nie korzystania z tej funkcjonalności, ewentualnie skorzystania z tworzenia kopii bezpieczeństwa po otrzymaniu komendy <em>optimize</em>.</p>
<p>Na początek, dodajemy następujący wpis do konfiguracji handler&#8217;a replikacji:
</p>
<pre class="brush:xml">&lt;str name="backupAfter"&gt;commit&lt;/str&gt;</pre>
<p>Zatem pełna konfiguracja serwera <em>master</em> mogłaby wyglądać następująco:
</p>
<pre class="brush:xml">&lt;requestHandler name="/replication" &gt;
 &lt;lst name="master"&gt;
  &lt;str name="replicateAfter"&gt;commit&lt;/str&gt;
  &lt;str name="replicateAfter"&gt;startup&lt;/str&gt;
  &lt;str name="confFiles"&gt;schema.xml,stopwords.txt&lt;/str&gt;
  &lt;str name="backupAfter"&gt;commit&lt;/str&gt;
 &lt;/lst&gt;
&lt;/requestHandler&gt;</pre>
<p>Po wysłaniu dwóch poleceń <em>commit</em> katalog z indeksem wyglądał następująco:
</p>
<pre class="brush:bash">drwxrwxr-x 2 gr0 gr0 4096 2012-08-12 21:12 index
drwxrwxr-x 2 gr0 gr0 4096 2012-08-12 21:12 snapshot.20120812211203
drwxrwxr-x 2 gr0 gr0 4096 2012-08-12 21:12 snapshot.20120812211216
drwxrwxr-x 2 gr0 gr0 4096 2012-08-12 20:16 spellchecker</pre>
<p>Tutaj także można zobaczyć, że Solr wykonał to co chcieliśmy, czyli stworzył dwa katalogi z kopią indeksu.</p>
<h3>Utrzymywanie porządku</h3>
<p>Możliwa jest kontrola tego, jak dużo kopii bezpieczeństwa naszego indeksu będziemy przechowywać. W celu określenia tej ilości należy dodać następujący wpis do konfiguracji handler&#8217;a replikacji:
</p>
<pre class="brush:xml">&lt;str name="maxNumberOfBackups"&gt;10&lt;/str&gt;</pre>
<p>Powyższy wpis mówi Solr, aby nie przechowywał więcej, niż 10 kopi bezpieczeństwa. Oczywiście możliwe jest także ręczne usuwanie stworzonych przez Solr kopii, jeżeli nie są już nam potrzebne.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://solr.pl/2012/08/13/kopia-bezpieczenstwa-indeksu/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>5 grzechów podczas projektowania indeksu Solr</title>
		<link>https://solr.pl/2010/08/30/5-grzechow-podczas-projektowania-indeksu-solr/</link>
					<comments>https://solr.pl/2010/08/30/5-grzechow-podczas-projektowania-indeksu-solr/#respond</comments>
		
		<dc:creator><![CDATA[Rafał Kuć]]></dc:creator>
		<pubDate>Mon, 30 Aug 2010 13:04:31 +0000</pubDate>
				<category><![CDATA[Solr]]></category>
		<category><![CDATA[atrybut]]></category>
		<category><![CDATA[atrybuty]]></category>
		<category><![CDATA[błędy]]></category>
		<category><![CDATA[inddex]]></category>
		<category><![CDATA[indeks]]></category>
		<category><![CDATA[indeksowanie]]></category>
		<category><![CDATA[schema]]></category>
		<category><![CDATA[schema.xml]]></category>
		<category><![CDATA[solr]]></category>
		<category><![CDATA[struktura]]></category>
		<category><![CDATA[struktura indeksu]]></category>
		<guid isPermaLink="false">http://sematext.solr.pl/?p=28</guid>

					<description><![CDATA[Zgodnie z obietnicą złożoną we wpisie na temat pliku schema.xml prezentujemy dzisiaj wpis dotyczący najczęściej popełnianych błędów podczas projektowania indeksu Solr, czyli podczas tworzenia i modyfikowania pliku schema.xml dla naszego wdrożenia. Zapraszam do dalszej lektury. Każdy z nas wie co]]></description>
										<content:encoded><![CDATA[<p>Zgodnie z obietnicą złożoną we wpisie na temat pliku <em>schema.xml</em> prezentujemy dzisiaj wpis dotyczący najczęściej popełnianych błędów  podczas projektowania indeksu Solr, czyli podczas tworzenia i  modyfikowania pliku <em>schema.xml</em> dla naszego wdrożenia. Zapraszam do dalszej lektury.</p>
<p><span id="more-28"></span></p>
<p>Każdy z nas wie co to jest plik<em> schema.xml</em> i do czego służy  (jeżeli nie, to zapraszam do lektury wpisu znajdującego się pod adresem:  <a href="http://solr.pl/2010/08/16/co-to-jest-schema/" target="_blank" rel="noopener noreferrer">http://solr.pl/2010/08/16/co-to-jest-schema/</a>). Jakie błędy najczęściej  popełniamy tworząc lub uaktualniając ten plik ? Ja osobiście spotkałem  się z następującymi:</p>
<h3><strong>1. Śmietnik w konfiguracji </strong></h3>
<p>Pierwsza zasada jaką wyznaję to trzymanie pliku <em>schema.xml</em> w  najprostszej z możliwych postaci. Wiąże się z tym jedna bardzo ważna  sprawa &#8211; plik ten nie powinien być synonimem chaosu. Jednym słowem, nie  trzymajmy tak niepotrzebnych komentarzy, niepotrzebnych typów, pól i tak  dalej. Porządek w strukturze indeksu ułatwia nam nie tylko utrzymywanie  tego pliku i jego modyfikacje, ale przede wszystkim upewnia nas, że nie  indeksujemy informacji, które są zbędne z punktu widzenia aplikacji  wykorzystującej Solr.</p>
<h3><strong>2. Kosmetyczne zmiany domyślnej konfiguracji</strong></h3>
<p>Ile z osób, które wykorzystuje Solr w swojej codziennej pracy brało domyślny plik <em>schema</em>.<em>xml</em> dostarczany w przykładowym wdrożeniu Solr i tylko nieznacznie  modyfikowało jego zawartość &#8211; na przykład zmieniając tylko nazwy pól ?  Sam powinienem podnieść rękę, bo sam kiedyś tak zrobiłem. Jest to dość  duży błąd według mnie. Ktoś może się zapytać dlaczego. Czy na pewno  robiąc wyszukiwanie w treściach napisanych w języku polskim potrzebujemy  na przykład angielskiego stemmingu ? Wydaje mi się, że jednak nie  potrzebujemy. Czy na pewno we wszystkich przypadkach potrzebujemy  przechowywać informacje o wektorach termów ?</p>
<h3><strong>3. Brak uaktualnień </strong></h3>
<p>Czasami zdarza mi się trafić na wdrożenia, gdzie wraz z uaktualnieniami wersji Solr nie uaktualnia się pliku <em>schema.xml</em>.  Jeżeli jest to świadoma decyzja, podyktowana np. kosztowną, bądź wręcz  niemożliwą ponowną indeksacją wszystkich danych, to rozumiem sytuację.  Są jednak przypadki kiedy uaktualnienie przyniosłoby same korzyści, a  środki jakie trzeba by było przeznaczyć na takie uaktualnienie są  minimalne (np. mało kosztowna reindeksacja, bądź niewielkie zmiany w  aplikacji). Nie bójmy się uaktualniać pliku <em>schema.xml</em> &#8211; czy chodzi to o aktualizację pól, aktualizację typów, czy dodanie nowszych rzeczy. Dobrym przykładem jest  tutaj migracja z Solr 1.3 na wersję 1.4 wprowadzającą duże zmiany  związane z typami liczbowymi, gdzie migracja na nowe typy skutkowała  naprawdę dużym wzrostem wydajności zapytań z nich korzystających (np.  zapytań wykorzystujących przedziały wartości).&nbsp; <strong><br />
</strong></p>
<h3><strong>4. &#8222;A może kiedyś się przyda&#8221;</strong></h3>
<p>Dodawanie nowych typów, nieusuwanie już niepotrzebnych, tak samo w przypadku pól, czy definicji <em>copyField</em>.  Wiem, to się kiedyś może jeszcze przydać, ale pamiętajmy, że każdy typ  to dodatkowa pamięć potrzebna Solr, każde pole to miejsce w indeksie,  tak samo jak każdy <em>copyField</em>. Moja drobna rada &#8211; jeżeli  przestajesz wykorzystywać typ, pole, czy cokolwiek innego co masz w  pliku konfiguracyjnym (nie tylko w <em>schema.xml</em>) po prostu usuń  to z tego pliku. Stosując tą zasadę przez cały cykl życia aplikacji  korzystającej z Solr będziesz zawsze mieć pewność, że indeks jest w  optymalnym stanie, a po kilku miesiącach od wdrożenia nie trzeba się  będzie zastanawiać i przekopywać przez kod aplikacji, aby sprawdzić czy  na pewno dane pole, czy typ jest wykorzystywany.</p>
<h3><strong>5. Atrybuty, atrybuty i jeszcze raz atrybuty</strong></h3>
<p>Przechowywanie  oryginalnych wartości, dodanie wektora termów i jego właściwości to  tylko przykłady, które mogą spowodować, mamy większy, niż wymaga tego  aplikacja, index. Większy index, mniejsza wydajność, przynajmniej w  niektórych wypadkach (np. w przypadku indeksowania). Warto więc  zastanowić się, czy na pewno potrzebujemy tych wszystkich informacji,  które każemy Solr wyliczać i przechowywać. Usunięcie niektórych,  oczywiście niepotrzebnych z naszego punktu widzenia informacji, może nas  miło zaskoczyć. Czasami warto spróbować <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/1f609.png" alt="😉" class="wp-smiley" style="height: 1em; max-height: 1em;" /> <strong><br />
</strong></p>
<p>Zapraszam do komentowania, ponieważ chętnie poczytam, na co jeszcze powinno się zwracać uwagę przy modyfikacji pliku <em>schema.xml</em>.</p>
<p>Na koniec, warto wspomnieć o artykule &#8222;<em>The Seven Deadly Sins of Solr</em>&#8221; opublikowanym na stronach LucidImagination pod adresem: <a href="http://www.lucidimagination.com/blog/2010/01/21/the-seven-deadly-sins-of-solr/" target="_blank" rel="noopener noreferrer">http://www.lucidimagination.com/blog/2010/01/21/the-seven-deadly-sins-of-solr/</a>. Opisuje on złe praktyki w trakcie pracy z Solr i zahacza także o temat plików konfiguracyjnych. Moim zdaniem ciekawa lektura. Polecam.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://solr.pl/2010/08/30/5-grzechow-podczas-projektowania-indeksu-solr/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Co to jest schema ?</title>
		<link>https://solr.pl/2010/08/16/co-to-jest-schema/</link>
					<comments>https://solr.pl/2010/08/16/co-to-jest-schema/#respond</comments>
		
		<dc:creator><![CDATA[Rafał Kuć]]></dc:creator>
		<pubDate>Mon, 16 Aug 2010 14:07:45 +0000</pubDate>
				<category><![CDATA[Solr]]></category>
		<category><![CDATA[analiza]]></category>
		<category><![CDATA[filtr]]></category>
		<category><![CDATA[indeks]]></category>
		<category><![CDATA[index]]></category>
		<category><![CDATA[pole]]></category>
		<category><![CDATA[schema]]></category>
		<category><![CDATA[schema.xml]]></category>
		<category><![CDATA[solr]]></category>
		<category><![CDATA[tokenizer]]></category>
		<category><![CDATA[typ]]></category>
		<category><![CDATA[typ pola]]></category>
		<category><![CDATA[type]]></category>
		<guid isPermaLink="false">http://sematext.solr.pl/?p=24</guid>

					<description><![CDATA[Jednym z plików konfiguracyjnych opisujących każde wdrożenie Solr jest plik schema.xml. Opisuje on jedną z najważniejszych rzeczy dotyczącą wdrożenia &#8211; strukturę indeksu. Informacje zawarte w tym pliku pozwalają kontrolować, jak zachowuje się Solr podczas indeksowania danych, czy też zadawania zapytań]]></description>
										<content:encoded><![CDATA[<p>Jednym z plików konfiguracyjnych opisujących każde wdrożenie Solr jest plik <em>schema.xml</em>. Opisuje on jedną z najważniejszych rzeczy dotyczącą wdrożenia &#8211; strukturę indeksu. Informacje zawarte w tym pliku pozwalają kontrolować, jak zachowuje się Solr podczas indeksowania danych, czy też zadawania zapytań do odpowiednich pól. <em>Schema.xml</em> to jednak nie tylko sama struktura indeksu, to także szczegółowe informacje o typach danych, które mają duży wpływ na zachowanie Solr, a z reguły są traktowane po macoszemu. Tym wpisem postaram się przybliżyć składowe pliku <em>schema.xml</em>.</p>
<p><span id="more-24"></span></p>
<p>Plik <em>schema.xml</em> składa się z kilku części:</p>
<ul>
<li> wersji,</li>
<li>definicji typów,</li>
<li>definicji pól,</li>
<li>sekcji <em>copyField</em>,</li>
<li>dodatkowych definicji.</li>
</ul>
<h3>Wersja</h3>
<p>Pierwszą rzeczą na jaką natrafimy w pliku schema.xml jest wersja. Jest to informacja o tym jak Solr ma traktować niektóre z atrybutów w pliku schema.xml. Definicja ta wygląda następująco:
</p>
<pre class="brush:xml">&lt;schema name="example" version="1.3"&gt;</pre>
<p>Należy pamiętać, iż nie jest to definicja wersji z punktu widzenia naszego projektu. W tym momencie Solr obsługuje 4 wersje pliku <em>schema.xml</em>:</p>
<ul>
<li>1.0 &#8211; nie istniał atrybut <em>multiValued</em>, wszystkie pola były domyślnie wielowartościowe.</li>
<li>1.1 &#8211; wprowadzono atrybut <em>multiValued</em>, domyślna wartość atrybutu to <em>false</em>.</li>
<li>1.2 &#8211; wprowadzono atrybut <em>omitTermFreqAndPositions</em>, domyślna wartość to <em>true </em>dla wszystkich pól, oprócz pól tekstowych.</li>
<li>1.3 &#8211; usunięto opcjonalną możliwość kompresji pól.</li>
</ul>
<h3>Definicje typów</h3>
<p>Definicje typów można logicznie podzielić na dwie oddzielne sekcje &#8211; typy proste i typy złożone. Typy proste w przeciwieństwie do typów złożonych nie posiadają zdefiniowanych filtrów i tokenizera.</p>
<p><strong>Typy proste</strong></p>
<p>Kolejnymi definicjami, na jakie trafimy w pliku<em> schema.xml</em> są definicje typów z których składać się będzie nasz indeks. Każdy z typów opisany jest szeregiem atrybutów, które opisują zachowanie danego typu. Na początek kilka atrybutów, które opisują każdy typ:</p>
<ul>
<li><em>name </em>&#8211; nazwa typu, atrybut wymagany,</li>
<li><em>class </em>&#8211; klasa, która odpowiada za implementację typu. Warto pamiętać, że  klasy standardowo dostarczane z Solr będą miały nazwy z przedrostkiem  'solr&#8217;.</li>
</ul>
<p>Oprócz dwóch wymienionych powyżej, typy mogą mieć jeszcze następujące atrybuty opcjonalne:</p>
<ul>
<li><em>sortMissingLast</em> &#8211; atrybut określający, jak mają być traktowane wartości w polu opartym o ten typ podczas sortowania. W przypadku ustawienia na wartość <em>true </em>na końcu listy wyników zawsze będą dokumenty nie posiadające wartości w polach oparty o dany typ &#8211; bez względu na to, czy sortujemy rosnąco, czy malejąco. Domyślna wartość atrybutu to <em>false</em>. Atrybut może być stosowany, tylko w przypadku typów, które przez Lucene traktowane są jako string.</li>
<li><em>sortMissingFirst </em>&#8211; atrybut określający, jak mają być traktowane wartości  w polu opartym o ten typ podczas sortowania. W przypadku ustawienia na  wartość true na początku listy wyników zawsze będą dokumenty nie  posiadające wartości w polach oparty o dany typ &#8211; bez względu na to, czy  sortujemy rosnąco, czy malejąco. Domyślna wartość atrybutu to <em>false</em>.  Atrybut może być stosowany, tylko w przypadku typów, które przez Lucene  traktowane są jako string.</li>
<li><em>omitNorms </em>&#8211; atrybut określający, czy podczas analizy mają być wyliczane normalizacje.</li>
<li><em>omitTermFreqAndPositions </em>&#8211; atrybut określający, czy podczas analizy ma  być pomijane wyliczanie częstotliwości poszczególnych termów oraz ich  pozycji w dokumencie.</li>
<li><em>indexed </em>&#8211; atrybut określający, czy pola oparte o ten typ mają przechowywać oryginalne wartości.</li>
<li><em>positionIncrementGap </em>&#8211; co ile pozycji (a dokładniej pozycji tokenów w strumieniu tokenów) ma być wyliczane trafienie.</li>
</ul>
<p>Warto pamiętać, iż w przypadku domyślnego ustawienia atrybutów sortMissingLast i sortMissingFirst Lucene będzie stosować zachowanie polegające na umieszczeniu dokumentów z pustymi wartościami na początku w przypadku sortowania rosnącego, a na końcu listy wyników w przypadku sortowania malejącego.</p>
<p>Kolejną opcją typów prostych, jednak dotyczącą tylko nowych typów liczbowych (typy<em> Trie*Field</em>), jest następujący atrybut:</p>
<ul>
<li><em>precisionStep </em>&#8211; atrybut określający ilość bitów precyzji. Im większa ilość bitów, tym szybsze zapytania oparte o przedziały liczbowe. Wiąże się to jednak także ze wzrostem wielkości indeksu, jako, że indeksowanych jest więcej wartości. Ustawienie wartości atrybutu na 0 wyłącza funkcjonalność indeksowania na różnych precyzjach.</li>
</ul>
<p>Przykładem zdefiniowanego typu prostego może być na przykład:
</p>
<pre class="brush:xml">&lt;fieldType name="string" class="solr.StrField" sortMissingLast="true" omitNorms="true"/&gt;</pre>
<p><strong>Typy złożone</strong></p>
<p>Oprócz typów prostych, plik <em>schema.xml</em> może zawierać typy składające się z tokenizera oraz filtrów. Tokenizer odpowiada za podzielenie zawartości pola na tokeny, natomiast filtry odpowiadają za dalszą analizę. Na przykład typ, który odpowiada za przechowywanie tekstów w języku polskim, mogłoby składać się z tokenizera odpowiadającego za dzielenie słów na podstawie białych znaków oraz kropek i przecinków, a przykładowe filtry mogłyby odpowiadać za sprowadzanie powstałych tokenów do małych liter, dalsze dzielenie tokenów (np. na podstawie myślników), a następnie sprowadzanie tokenów do formy podstawowej.</p>
<p>Typy złożone, tak jak typy proste, mają swoją nazwę (atrybut <em>name</em>) oraz klasę która odpowiada za implementację (atrybut <em>class</em>). Mogą się także charakteryzować innymi atrybutami opisanymi w przypadku typów prostych (na tych samych zasadach). Dodatkowo jednak typy złożone mogą posiadać definicję tokenizera oraz filtrów, które mają być wykorzystane na etapie indeksowania, jak i na etapie zadawania zapytań. Jak zapewne większość wie, dla danego etapu (indeksowanie, bądź zadawanie zapytań) może być zdefiniowany szereg filtrów oraz tylko i wyłącznie jeden tokenizer. Przykładowo, tak wygląda definicja typu tekstowego w przykładowej instalacji dostarczanej razem z Solr:
</p>
<pre class="brush:xml">&lt;fieldType name="text" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="true"&gt;
   &lt;analyzer type="index"&gt;
      &lt;tokenizer class="solr.WhitespaceTokenizerFactory"/&gt;
      &lt;filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" /&gt;
      &lt;filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/&gt;
      &lt;filter class="solr.LowerCaseFilterFactory"/&gt;
      &lt;filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/&gt;
      &lt;filter class="solr.PorterStemFilterFactory"/&gt;
   &lt;/analyzer&gt;
   &lt;analyzer type="query"&gt;
      &lt;tokenizer class="solr.WhitespaceTokenizerFactory"/&gt;
      &lt;filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/&gt;
      &lt;filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" /&gt;
      &lt;filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/&gt;
      &lt;filter class="solr.LowerCaseFilterFactory"/&gt;
      &lt;filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/&gt;
      &lt;filter class="solr.PorterStemFilterFactory"/&gt;
   &lt;/analyzer&gt;
&lt;/fieldType&gt;</pre>
<p>Warto zauważyć dodatkowy atrybut dla pola tekstowego:</p>
<ul>
<li><em>autoGeneratePhraseQueries</em></li>
</ul>
<p>Atrybut odpowiada za to, jak zachowują się filtry przy rozdzielaniu tokenów. Niektóre z filtrów (taki, jak np. <em>WordDelimiterFilter</em>) pozwala na dzielenie słów np. za pomocą znaku myślnika. Ustawienie atrybutu na wartość true (wartość domyślna) powoduje automatyczne generowanie zapytań o frazę, czyli tzw. <em>PhraseQueries</em>. Oznacza to, że np. dla słowa &#8222;wi-fi&#8221;, które zostanie rozbite przez filtr WordDelimiterFilter na słowa &#8222;wi&#8221; oraz &#8222;fi&#8221; zostanie wygenerowane zapytanie <code>pole:"wi fi"</code>, a nie zapytanie <code>pole:wi OR pole:fi</code>. Należy jednak pamiętać, iż atrybut ten potrafi gubić się w przypadku pól, które mają zdefiniowany tokenizer dzielący słowa inaczej, niż po białych znakach.</p>
<p>Wracając do definicji typu. Jak widać, przykład który podałem ma dwie główne sekcje:
</p>
<pre class="brush:xml">&lt;analyzer type="index"&gt;</pre>
<p>oraz
</p>
<pre class="brush:xml">&lt;analyzer type="query"&gt;</pre>
<p>Pierwsza z sekcji odpowiada za definicję typu, która będzie użyta w przypadku indeksowania dokumentów, druga sekcja odpowiada za definicję typu używaną w przypadku zapytań do pól opartych o ten typ. Warto wiedzieć, że jeżeli chcemy korzystać z tej samej definicji dla indeksowania i zadawania zapytań, możemy zrezygnować z obu sekcji. Wtedy nasza definicja typu wyglądałaby na przykład następująco:
</p>
<pre class="brush:xml">&lt;fieldType name="text" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="true"&gt;
   &lt;tokenizer class="solr.WhitespaceTokenizerFactory"/&gt;
   &lt;filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" /&gt;
   &lt;filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/&gt;
   &lt;filter class="solr.LowerCaseFilterFactory"/&gt;
   &lt;filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/&gt;
   &lt;filter class="solr.PorterStemFilterFactory"/&gt;
&lt;/fieldType&gt;</pre>
<p>Jak już wspomniałem w definicji każdego typu złożonego występuje jeden tokenizer oraz szereg filtrów (choć nie koniecznie). Nie będę opisywał poszczególnych opcji każdego z filtrów oraz tokenizerów dostępnych standardowo z Solr. Informacje te dostępne są pod następującym adresem: <a href="http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters" target="_blank" rel="noopener noreferrer">http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters</a>.</p>
<p>Na koniec chciałem dodać ważną rzecz. Począwszy od Solr 1.4 tokenizer nie musi być pierwszym mechanizmem jaki zajmuje się analizą danego pola &#8211; zostały wprowadzone nowe filtry tzw. Char Filters, które operują na nietokenizowanym jeszcze polu i dopiero później przekazują wynik do tokenizera. Warto o tym wiedzieć, ponieważ może się to kiedyś przydać.</p>
<p><strong>Typy wielowymiarowe</strong></p>
<p>Na koniec zostawiłem sobie mały dodatek &#8211; opis nowości w Solr 1.4 &#8211; pól wielowymiarowych, czyli pól składających się z szeregu innych pól. Ogólnie można powiedzieć, iż założenie tego typu pól było proste &#8211; umożliwić przechowywanie w Solr par, trójek, czy większej ilości powiązanych ze sobą danych, takich jak na przykład współrzędne geograficzne punktu. W praktyce realizowane jest to za pomocą pól dynamicznych, jednak pozwolę sobie nie wgłębiać się w szczegóły implementacji. Przykładowa definicja typu, składającego się z dwóch pól:
</p>
<pre class="brush:xml">&lt;fieldType name="location" class="solr.PointType" dimension="2" subFieldSuffix="_d"/&gt;</pre>
<p>Oprócz standardowych atrybutów <em>name </em>oraz <em>class </em>pojawiają się dwa nowe:</p>
<ul>
<li><em>dimension </em>&#8211; ilość wymiarów (atrybut wykorzystywany przez klasę <em>solr.PointType)</em>.</li>
<li><em>subFieldSuffix </em>&#8211; przyrostek, jaki będzie dodawany do pól dynamicznych  wchodzących w skład pola. Ważne aby pamiętać, iż tak zdefiniowane pole  stworzy trzy pola w indeksie &#8211; pole oparte o typ <em>location </em>oraz dwa pola dynamiczne<em></em><em></em>.</li>
</ul>
<h3>Definicje pól</h3>
<p>Definicje pól to kolejna sekcja w pliku <em>schema.xml</em>, to sekcja, która teoretycznie powinna interesować nas najbardziej podczas projektowania indeksu Solr. Z reguły znajdziemy tutaj dwa rodzaje definicji pól:</p>
<ol>
<li>Pola statyczne</li>
<li>Pola dynamiczne</li>
</ol>
<p>Pola te są różnie traktowane przez Solr. Pierwszy typ pól, to pola, które dostępne są pod jedną nazwą. Pola dynamiczne, jako nazwę mają proste wyrażenie regularne (nazwa zaczynająca się lub kończąca się znakiem '*&#8217;). Należy pamiętać, iż Solr najpierw wybiera pole statyczne, a dopiero później pola dynamiczne. Dodatkowo w przypadku nazwy pola, która pasuje do więcej, niż jednej definicji, wybrane zostanie pole z dłuższą definicją nazwy.</p>
<p>Wracając do definicji pól (zarówno statycznych, jak i dynamicznych), składają się one z następujących atrybutów:</p>
<ul>
<li><em>name </em>&#8211; nazwa pola (atrybut wymagany).</li>
<li><em>type </em>&#8211; typ pola, czyli jeden z typów zdefiniowanych wcześniej (atrybut wymagany).</li>
<li><em>indexed </em>&#8211; czy pole ma być indeksowane (ustawiamy na wartość <em>true</em>, jeżeli chcemy wyszukiwać lub sortować po tym polu).</li>
<li><em>stored </em>&#8211; czy mają być przechowywane oryginalne wartości (ustawiamy na  wartość <em>true</em>, jeżeli chcemy pobierać oryginalną wartość przekazaną do  tego pola).</li>
<li><em>omitNorms </em>&#8211; czy ma być pomijane wyliczanie norm dla tego pola (ustawiamy  na wartość <em>true </em>dla pól, dla których będziemy stosować wyszukiwanie pełnotekstowe).</li>
<li><em>termVectors </em>&#8211; ustawiamy na wartość true w przypadku kiedy chcemy  przechowywać tzw. wektor termów. Domyślna wartość parametru, to wartość <em> false</em>. Niektóre funkcjonalności wymagają ustawienia tego parametru na <em> true </em>(np. <em>MoreLikeThis</em>, czy <em>FastVectorHighlighting</em>).</li>
<li><em>termPositions </em>&#8211; ustawiamy na wartość <em>true</em>, jeżeli chcemy aby wraz z  wektorem przechowywane były pozycje termów. Ustawienie na wartość <em>true </em>spowoduje wzrost wielkości indeksu.</li>
<li><em>termOffsets </em>&#8211; ustawiamy na wartość <em>true</em>, jeżeli chcemy aby wraz z  wektorem termów przechowywane były przesunięcia. Ustawienie na wartość <em> true </em>spowoduje wzrost wielkości indeksu.</li>
<li><em>default </em>&#8211; domyślna wartość jaka ma zostać nadana polu, jeżeli w dokumencie nie było podanej żadnej wartości.</li>
</ul>
<p>Poniżej przykładowe definicje pól:
</p>
<pre class="brush:xml">&lt;field name="id" type="string" indexed="true" stored="true" required="true" /&gt;
&lt;field name="includes" type="text" indexed="true" stored="true" termVectors="true" termPositions="true" termOffsets="true" /&gt;
&lt;field name="timestamp" type="date" indexed="true" stored="true" default="NOW" multiValued="false"/&gt;
&lt;dynamicField name="*_i" type="int" indexed="true" stored="true"/&gt;</pre>
<p>Na koniec jeszcze dodatkowa informacja o której warto pamiętać. Oprócz atrybutów wymienionych powyżej przy definicji pola możemy nadpisywać atrybuty jakie zostały zdefiniowane dla typu (np. czy pole ma być wielowartościowe &#8211; z powyższego przykładu pole o nazwie timestamp). Czasami taka funkcjonalność może się przydać, jeżeli potrzebujemy specyficznego pola, którego typ różni się nieznacznie od innego typu (tak jak w przykładzie &#8211; tylko atrybutem multiValued). Oczywiście należy pamiętać o ograniczeniach nakładanych na poszczególne atrybuty związane z typami.</p>
<h3>Sekcja copyField</h3>
<p>W skrócie sekcja odpowiadająca za kopiowanie zawartości pól do innych pól. Definiujemy z jakiego pola ma być skopiowana zawartość oraz do jakiego pola. Należy pamiętać, iż kopiowana jest zawartość przed analizą, czy wartość jaka przychodzi w danych. Przykład definicji copyField:
</p>
<pre class="brush:xml">&lt;copyField source="category" dest="text"/&gt;</pre>
<p>W gwoli ścisłości, występujące atrybuty oznaczają:</p>
<ul>
<li><em>source </em>&#8211; pole źródłowe,</li>
<li><em>dest </em>&#8211; pole docelowe.</li>
</ul>
<h3>Dodatkowe definicje</h3>
<p><strong>1. Zdefiniowanie unikalnego klucza</strong></p>
<p>Definicja unikalnego klucza, dzięki któremu możliwe będzie jednoznaczne zidentyfikowanie dokumentu. Zdefiniowanie unikalnego klucza nie jest konieczne, ale jest zalecane. Przykładowa definicja:
</p>
<pre class="brush:xml">&lt;uniqueKey&gt;id&lt;/uniqueKey&gt;</pre>
<p><strong>2. Zdefiniowanie domyślnego pola wyszukiwania</strong></p>
<p>Sekcja odpowiadająca za zdefiniowanie domyślnego pola, w którym Solr ma wyszukiwać w przypadku kiedy nie zostało podane żadne pole. Przykładowa definicja:
</p>
<pre class="brush:xml">&lt;defaultSearchField&gt;content&lt;/defaultSearchField&gt;</pre>
<p><strong>3. Zdefiniowanie domyślnego operatora logicznego</strong></p>
<p>Sekcja odpowiadająca za definicje domyślnego operatora logicznego, który będzie używany, jeżeli nie zostanie podany żaden operator logiczny. Przykładowa definicja wygląda w następujący sposób:
</p>
<pre class="brush:xml">&lt;solrQueryParser defaultOperator="OR"/&gt;</pre>
<p>Możliwe wartości to: <em>OR </em>oraz <em>AND</em>.</p>
<p><strong>4. Zdefiniowanie podobieństwa</strong></p>
<p>Na koniec zostaje nam zdefiniowanie podobieństwa, jakie będziemy wykorzystywać. Jest to raczej temat na inny wpis, należy jednak wiedzieć, iż w razie konieczności mamy możliwość zmiany domyślnego podobieństwa (aktualnie w trunku Solr są już dwie klasy obsługujące podobieństwo). Przykładowa definicja wygląda następująco:
</p>
<pre class="brush:xml">&lt;similarity class="pl.solr.similarity.CustomSimilarity" /&gt;</pre>
<h3>Kilka słów na koniec</h3>
<p>Powyżej przedstawione informacje powinny dać pewien wgląd na temat jakim jest plik <em>schema.xml</em> oraz za co odpowiadają poszczególne sekcje w tym pliku. W niedługim czasie postaram się napisać, czego wystrzegać się podczas projektowania indeksu.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://solr.pl/2010/08/16/co-to-jest-schema/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
	</channel>
</rss>
