<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>index &#8211; Solr.pl</title>
	<atom:link href="https://solr.pl/tag/index/feed/" rel="self" type="application/rss+xml" />
	<link>https://solr.pl</link>
	<description>All things to be found - Blog related to Apache Solr &#38; Lucene projects - https://solr.apache.org</description>
	<lastBuildDate>Wed, 11 Nov 2020 08:11:30 +0000</lastBuildDate>
	<language>pl-PL</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9</generator>
	<item>
		<title>Index &#8211; usuwać, czy nadpisywać ?</title>
		<link>https://solr.pl/2011/02/16/index-usuwac-czy-nadpisywac/</link>
					<comments>https://solr.pl/2011/02/16/index-usuwac-czy-nadpisywac/#respond</comments>
		
		<dc:creator><![CDATA[Rafał Kuć]]></dc:creator>
		<pubDate>Wed, 16 Feb 2011 08:11:02 +0000</pubDate>
				<category><![CDATA[Solr]]></category>
		<category><![CDATA[aktualizacja]]></category>
		<category><![CDATA[index]]></category>
		<category><![CDATA[solr]]></category>
		<category><![CDATA[usuwanie]]></category>
		<guid isPermaLink="false">http://sematext.solr.pl/?p=199</guid>

					<description><![CDATA[Co jakiś czas, w pracy z Solr pojawia się problem &#8211; aktualizacja struktury indeksów Solr. Różne są powody tych zmian &#8211; nowe wymagania funkcjonalne, optymalizacje, czy cokolwiek innego &#8211; nie jest to ważne. Istotne jest pytanie, które się wtedy pojawia]]></description>
										<content:encoded><![CDATA[<p>Co jakiś czas, w pracy z Solr pojawia się problem &#8211; aktualizacja struktury indeksów Solr. Różne są powody tych zmian &#8211; nowe wymagania funkcjonalne, optymalizacje, czy cokolwiek innego &#8211; nie jest to ważne. Istotne jest pytanie, które się wtedy pojawia &#8211; usuwać indeks, czy po prostu zmienić strukturę i przeprowadzić pełną indeksację ? Wbrew pozorom odpowiedź na to pytanie zależy od zmian, jakich dokonaliśmy w strukturze indeksu.</p>
<p><span id="more-199"></span></p>
<p>Osobiście, jestem zwolennikiem rozwiązań, które mają jak najmniejszą szansę powodować problemy &#8211; po prostu lubię w nocy spać. Do takich rozwiązań zaliczam usunięcie indeksu po modyfikacji jego struktury, a następnie pełną indeksację danych. Zdaję sobie jednak sprawę, że nie zawsze takie rozwiązanie jest akceptowalne. Kiedy zatem nie jesteśmy zmuszeni do usunięcia indeksu, a kiedy nie usunięcie indeksu naraża nas na ewentualne problemy z poprawnym działaniem Solr ?</p>
<p>Odpowiedź na pytanie zależy od tego, co zmieniliśmy w strukturze indeksu. Zmiany takie, można podzielić na trzy obszary obejmujące większość ze zmian jakie możemy dokonać w strukturze indeksu:</p>
<ul>
<li><strong>Dodanie/usunięcie nowego pola</strong></li>
<li><strong>Modyfikacja podobieństwa (Similarity)</strong></li>
<li><strong>Modyfikacja typu pola</strong></li>
</ul>
<h3>Dodanie/usunięcie nowego pola</h3>
<p>W przypadku pierwszego typu modyfikacji sprawa jest dość prosta &#8211; jeżeli dodamy do schema.xml (bądź usuniemy) <strong>nowe</strong> pole, nie ma konieczności usuwania całego indeksu przed ponowną indeksacją. Solr poradzi sobie z dodaniem nowego pola, do aktualnego indeksu. Oczywiście, należy sobie zdawać sprawę, iż dokumenty, które nie będą po tej operacji ponownie zaindeksowane nie będą automatycznie uaktualnione.</p>
<h3>Modyfikacja podobieństwa</h3>
<p>W drugim przypadku, czyli przy ewentualnej zmianie klasy odpowiedzialnej za <em>Similarity</em> także nie musimy usuwać indeksu po zmianie schema.xml. Jednak w odróżnieniu od poprzedniego przykładu, do poprawnego wyliczania współczynnika <em>score</em>, a tym samym do poprawnego sortowania będzie konieczna ponowna indeksacja wszystkich dokumentów wcześniej obecnych w indeksie.</p>
<h3>Modyfikacja typu pola</h3>
<p>Zatrzymajmy się na trzecim przypadku. Załóżmy, że modyfikujemy nieznacznie pole w indeksie z prozaicznej przyczyny &#8211; przestaje interesować nas normalizacja jego długości. Ustawiamy sobie <em>omitNorms=&#8221;true&#8221;</em> (zakładam, iż wcześniej było <em>omitNorms=&#8221;false&#8221;</em>). Indeksujemy ponownie wszystkie dokumenty, Lucene łączy nam indeksy i co się okazuje &#8211; dalej w połączonych segmentach mamy dalej znormalizowane informacje o długości pola. Coś poszło nie tak. To jest właśnie ten przypadek kiedy konieczne jest usunięcie indeksu po zmianie jego struktury, a przed pełną indeksacją. Na pierwszy rzut oka wygląda, iż jest to bardzo mała zmiana, jednak zastanawiając się dalej, mamy takie, a nie inne skutki. Warto pamiętać, iż niektóre z właściwości pól są nadpisywane przez inne, tak jak w przypadku normalizacji długości &#8211; jeżeli w jednym segmencie pole będzie posiadało normalizację, a w drugim nie, to po połączeniu segmentów otrzymamy jeden, w którym to pole będzie posiadało normalizację.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://solr.pl/2011/02/16/index-usuwac-czy-nadpisywac/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>CheckIndex, czyli na ratunek indeksowi</title>
		<link>https://solr.pl/2011/01/17/checkindex-czyli-na-ratunek-indeksowi/</link>
					<comments>https://solr.pl/2011/01/17/checkindex-czyli-na-ratunek-indeksowi/#respond</comments>
		
		<dc:creator><![CDATA[Rafał Kuć]]></dc:creator>
		<pubDate>Mon, 17 Jan 2011 08:00:14 +0000</pubDate>
				<category><![CDATA[Lucene]]></category>
		<category><![CDATA[Solr]]></category>
		<category><![CDATA[check]]></category>
		<category><![CDATA[check index]]></category>
		<category><![CDATA[checkindex]]></category>
		<category><![CDATA[index]]></category>
		<category><![CDATA[lucene]]></category>
		<category><![CDATA[naprawa]]></category>
		<category><![CDATA[solr]]></category>
		<category><![CDATA[sprawdzanie]]></category>
		<guid isPermaLink="false">http://sematext.solr.pl/?p=176</guid>

					<description><![CDATA[Korzystając z Lucene i Solr jesteśmy przyzwyczajeni do bardzo dużej niezawodności wymienionych rozwiązań. Może jednak nadejść ten dzień, kiedy Solr krzyknie do nas, iż nasz indeks przestał być poprawny i musimy coś z tym zrobić. Czy jedynym wyjściem jest odtwarzanie]]></description>
										<content:encoded><![CDATA[<p>Korzystając z Lucene i Solr jesteśmy przyzwyczajeni do bardzo dużej niezawodności wymienionych rozwiązań. Może jednak nadejść ten dzień, kiedy Solr krzyknie do nas, iż nasz indeks przestał być poprawny i musimy coś z tym zrobić. Czy jedynym wyjściem jest odtwarzanie z kopii zapasowej, bądź ponowna pełna indeksacja ? Nie tylko &#8211; jest jeszcze nadzieja w postaci narzędzia CheckIndex.</p>
<p><span id="more-176"></span></p>
<h3>Co to ?</h3>
<p>CheckIndex jest narzędziem dostępnym w bibliotece Lucene, które pozwala sprawdzić i stworzyć nowe pliki segmentów, które nie zawierają problematycznych wpisów. Oznacza to, że narzędzie to, przy niewielkich stratach własnych jest w stanie naprawić zepsuty indeks, a tym samym uchronić nas przed koniecznością odtwarzania kopii zapasowej (oczywiście o ile ją mamy) lub też indeksowania pełnego wszystkich dokumentów, które przechowywaliśmy w Solr.</p>
<h3>Od czego zacząć ?</h3>
<p>Należy pamiętać, iż zgodnie tym co znajdujemy w Javadoc&#8217;ach, narzędzie to jest dalej eksperymentalne i może się zmienić. Dlatego, przed uruchomieniem powinniśmy stworzyć kopię indeksu. Dodatkowo, warto wiedzieć, iż narzędzie analizuje indeks bajt po bajcie, a tym samym w przypadku dużych indeksów czas analizy i naprawy może być duży. Ważne jest, aby nie uruchamiać narzędzia z opcją <em>-fix</em> w chwili kiedy korzysta z niego Solr lub inna aplikacja oparta o bibliotekę Lucene. Na koniec, należy zdawać sobie sprawę, iż uruchomienie narzędzia w trybie naprawiającym indeks może spowodować usunięcie z tegoż dokumentów, które zapisane są w problematycznych obszarach indeksu.</p>
<h3>Jak uruchamiać ?</h3>
<p>W celu uruchomienia narzędzia przechodzimy do katalogu, gdzie znajdują się pliki biblioteki Lucene i uruchamiamy następujące polecenie:
</p>
<pre class="brush:bash">java -ea:org.apache.lucene... org.apache.lucene.index.CheckIndex SCIEZKA_DO_INDEKSU -fix</pre>
<p>W moim wypadku wyglądało to następująco:
</p>
<pre class="brush:bash">java -cp lucene-core-2.9.3.jar -ea:org.apache.lucene... org.apache.lucene.index.CheckIndex E:\\Solr\\solr\\data\\index\\ -fix</pre>
<p>Po pewnym czasie dostałem następujące informacje:
</p>
<pre class="brush:bash">Opening index @ E:\Solr\solr\data\index\

Segments file=segments_2 numSegments=1 version=FORMAT_DIAGNOSTICS [Lucene 2.9]
1 of 1: name=_0 docCount=19
compound=false
hasProx=true
numFiles=11
size (MB)=0,018
diagnostics = {os.version=6.1, os=Windows 7, lucene.version=2.9.3 951790 - 2010-06-06 01:30:55, source=flush, os.arch=x86, java.version=1.6.0_23, java.vendor=Sun Microsystems Inc.}
no deletions
test: open reader.........OK
test: fields..............OK [15 fields]
test: field norms.........OK [15 fields]
test: terms, freq, prox...OK [900 terms; 1517 terms/docs pairs; 1707 tokens]
test: stored fields.......OK [232 total field count; avg 12,211 fields per doc]
test: term vectors........OK [3 total vector count; avg 0,158 term/freq vector fields per doc]

No problems were detected with this index.</pre>
<p>Co oznacza, że indeks był poprawny i nie było konieczności przeprowadzania żadnych czynności naprawczych. Dodatkowo, można się dowiedzieć kilku ciekawych rzeczy na temat indeksu <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/1f609.png" alt="😉" class="wp-smiley" style="height: 1em; max-height: 1em;" /></p>
<h3>Zepsuty indeks</h3>
<p>A co dzieje się w przypadku zepsutego indeksu ? Jest tylko jeden sposób &#8211; sprawdźmy. W tym celu uszkodziłem jeden z plików indeksu i uruchomiłem narzędzie CheckIndex. Poniżej cytuje, co zobaczyłem na konsoli:
</p>
<pre class="brush:bash">Opening index @ E:\Solr\solr\data\index\

Segments file=segments_2 numSegments=1 version=FORMAT_DIAGNOSTICS [Lucene 2.9]
1 of 1: name=_0 docCount=19
compound=false
hasProx=true
numFiles=11
size (MB)=0,018
diagnostics = {os.version=6.1, os=Windows 7, lucene.version=2.9.3 951790 - 2010-06-06 01:30:55, source=flush, os.arch=x86, java.version=1.6.0_23, java.vendor=Sun Microsystems Inc.}
no deletions
test: open reader.........FAILED
WARNING: fixIndex() would remove reference to this segment; full exception:
org.apache.lucene.index.CorruptIndexException: did not read all bytes from file "_0.fnm": read 150 vs size 152
at org.apache.lucene.index.FieldInfos.read(FieldInfos.java:370)
at org.apache.lucene.index.FieldInfos.&lt;init&gt;(FieldInfos.java:71)
at org.apache.lucene.index.SegmentReader$CoreReaders.&lt;init&gt;(SegmentReader.java:119)
at org.apache.lucene.index.SegmentReader.get(SegmentReader.java:652)
at org.apache.lucene.index.SegmentReader.get(SegmentReader.java:605)
at org.apache.lucene.index.CheckIndex.checkIndex(CheckIndex.java:491)
at org.apache.lucene.index.CheckIndex.main(CheckIndex.java:903)

WARNING: 1 broken segments (containing 19 documents) detected
WARNING: 19 documents will be lost

NOTE: will write new segments file in 5 seconds; this will remove 19 docs from the index. THIS IS YOUR LAST CHANCE TO CTRL+C!
5...
4...
3...
2...
1...
Writing...
OK
Wrote new segments file "segments_3"</pre>
<p>Jak widać, wszystkie 19 dokumentów, które znajdowały się w indeksie zostały usunięte. Jest to ekstremalny przypadek, ale warto sobie zdawać sprawę, że to narzędzie może tak zadziałać.</p>
<h3>Na koniec</h3>
<p>Pamiętając o podstawowych założeniach związanych z używaniem narzędzia CheckIndex może się okazać, że przyjdzie taki moment, kiedy ułatwi nam ono ponowne uruchomienie Solr w przypadku awarii związanej z indeksem, a tym samym unikniemy rwania włosów z głowy i pytań &#8222;Kiedy był zrobiony ostatni backup ?&#8221;.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://solr.pl/2011/01/17/checkindex-czyli-na-ratunek-indeksowi/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Szybkie spojrzenie &#8211; IndexSorter</title>
		<link>https://solr.pl/2010/10/04/szybkie-spojrzenie-indexsorter/</link>
					<comments>https://solr.pl/2010/10/04/szybkie-spojrzenie-indexsorter/#respond</comments>
		
		<dc:creator><![CDATA[Rafał Kuć]]></dc:creator>
		<pubDate>Mon, 04 Oct 2010 05:38:44 +0000</pubDate>
				<category><![CDATA[Solr]]></category>
		<category><![CDATA[index]]></category>
		<category><![CDATA[index sorter]]></category>
		<category><![CDATA[indexsorter]]></category>
		<category><![CDATA[lucene]]></category>
		<category><![CDATA[solr]]></category>
		<category><![CDATA[sorting]]></category>
		<category><![CDATA[sortowanie]]></category>
		<category><![CDATA[sortowanie indeksu]]></category>
		<guid isPermaLink="false">http://sematext.solr.pl/?p=38</guid>

					<description><![CDATA[Na konferencji Apache Lucene Eurocon 2010, która miała miejsce w maju tego roku, Andrzej Białecki w swojej prezentacji opowiadał o sposobach pozwalających uzyskać zadowalające efekty wyszukiwania korzystając z technik wcześniejszej terminacji wyszukiwania. Niestety narzędzia o których była mowa, nie były]]></description>
										<content:encoded><![CDATA[<p>Na konferencji Apache Lucene Eurocon 2010, która miała miejsce w maju  tego roku, Andrzej Białecki w swojej prezentacji opowiadał o sposobach  pozwalających uzyskać zadowalające efekty wyszukiwania korzystając z  technik wcześniejszej terminacji wyszukiwania. Niestety narzędzia o  których była mowa, nie były dostępne w Solr &#8211; to się jednak zmieniło.</p>
<p><span id="more-38"></span></p>
<p>W chwili obecnej, opisywane narzędzia dostępne są jedynie w branchu o nazwie <em>branch_3x</em> repozytorium SVN, jednak planowana jest migracja tych funkcjonalności także do wersji 4.x.</p>
<h3><strong>Ale o co chodzi ?</strong></h3>
<p>Korzystając z technik kończenia wyszukiwania po z góry ustalonym czasie,  nie oglądając się na ilość wyników wyszukiwania, trafiamy w pewnym  momencie na problem jakości wyników wyszukiwania. Zamiast otrzymywania  najlepszych, w kontekście danego wyszukiwania, wyników otrzymujemy je w  sposób losowy. Oznacza to, że nie jesteśmy w stanie zapewnić, iż  użytkownik korzystający z systemu dostanie najlepiej dopasowane wyniki.  Oczywiście dalej mówimy o sytuacji, kiedy kończymy wyszukiwanie po z  góry ustalonym czasie i nie dajemy Solr możliwości zebrania wszystkich  dokumentów pasujących do zapytania.</p>
<h3><strong>Po co mi to ?</strong></h3>
<p>Kiedy kończenie wyszukiwania po z góry ustalonym czasie może być  przydatne ? Istnieje wiele zastosowań takiego wyszukiwania. Wyobraźmy  sobie, że nasze wdrożenie składa się z wielu oddzielnych shardów, które  operują na dużej ilości danych każdy. W przypadku zadania zapytania,  każdy z shardów musi być odpytany o odpowiednie dokumenty, następnie  wszystkie wyniki muszą być złożone razem i wyświetlone użytkownikowi  końcowemu (oczywiście nie musi być to człowiek, może być to aplikacja).  Co jednak, jeżeli każdy z shardów potrzebuje bardzo długiego czasu na  przetworzenie wszystkich wyników wyszukiwania, a nas interesują np.  tylko te dodane w ostatnim czasie (np. w ostatnim tygodniu). Tutaj  właśnie mamy możliwość wcześniejszego zakończenia wyszukiwanie &#8211;  zakładając, że bardziej interesują nas dokumenty dodane poprzedniego  dnia, niż dwa tygodnie wcześniej.</p>
<h3><strong>Jak to zrealizować ?</strong></h3>
<p>Powyższy przykład pokazuje, przypadek kiedy możemy zastosować  wyszukiwanie zakończone po określonym z góry czasie. Jednak  zastanawiając się dalej trafiamy na pewien problem &#8211; aby posortować  wyniki wyszukiwania Solr musi pobrać je wszystkie. Czyli stosując w  zapytaniu parametr <em>sort=added+desc</em>, aby uzyskać poprawnie posortowane  dokumenty i tak każdy z shardów musiałby zwrócić wszystkie wyniki  wyszukiwania (oczywiście wszystkie w rozumieniu pojedynczego indeksu),  czyli nici z wcześniejszego zakończenia wyszukiwania ? Nie do końca.  Tutaj właśnie z pomocą przychodzi nam narzędzie IndexSorter, które do  tej pory dostępne było tylko w projekcie Nutch, a od niedawna dostępne  jest także w Lucene i Solr. Dzięki temu narzędziu możemy posortować  wstępnie indeks według odpowiadającego nam parametru. Zatem sortując  indeks malejąco po dacie dodania dokumentu, Solr pobierałby najpierw  dokumenty, które zostały dodanie najpóźniej, a tym samym mielibyśmy  możliwość zakończenia wyszukiwania po z góry ustalonym czasie.</p>
<h3><strong>Korzystanie z IndexSorter</strong></h3>
<p>Co zrobić, aby skorzystać z narzędzia IndexSorter ? Prawdę  powiedziawszy, nie jest to nic skomplikowanego. Należy jednak pamiętać,  że w momencie publikacji tego wpisu narzędzie to dostępne jest tylko w  branchu o nazwie <em>branch_3x</em>. Aby posortować indeks na podstawie  jakiegoś pola należy wywołać następującą komendę z linii poleceń  (oczywiście pamiętając o odpowiednim umiejscowieniu biblioteki  <em>lucene-misc-3.1.jar</em> z klasą IndexSorter &#8211; po wybudowaniu projektu  znajdziemy ją w katalogu <em>lucene/build/contrib/misc</em>):
</p>
<pre class="brush:bash">java IndexSorter KATALOG_ŹRÓDŁOWY KATALOG_DOCELOWY NAZWA_POLA</pre>
<p>Poszczególne parametry oznaczają:</p>
<ul>
<li><em>KATALOG_ŹRÓDŁOWY </em>&#8211; katalog z indeksem który chcemy posortować,</li>
<li><em>KATALOG_DOCELOWY</em> &#8211; katalog, gdzie zostanie zapisany posortowany indeks,</li>
<li><em>NAZWA_POLA </em>&#8211; pole, po jakim zostanie posortowany indeks.</li>
</ul>
<p>Jeżeli wszystko przebiegło poprawnie to na ekranie powinniśmy dostać informację w stylu:
</p>
<pre class="brush:bash">IndexSorter: done, 896 total milliseconds</pre>
<h3><strong>Na koniec</strong></h3>
<p>Moim zdaniem Lucene i Solr dostały właśnie bardzo ciekawą funkcjonalność, która może być wykorzystana wszędzie tam, gdzie <strong> </strong>ilość  danych jest bardzo duża, czas odpowiedzi nie może przekroczyć pewnej  granicy, a wyniki poza pierwszymi (pierwszych 100, czy 1000) nie są  znaczące. Wszystkich bardziej zainteresowanych tematem sortowania  indeksu oraz technikami dzielenia indeksu zapraszam do obejrzenia  slajdów z prezentacji pod tytułem &#8222;<em>Munching and Crunching: Lucene Index  Post-Processing</em>&#8221; (<a href="http://lucene-eurocon.org/slides/Munching-&amp;-crunching-Lucene-index-post-processing-and-applications_Andrzej-Bialecki.pdf" target="_blank" rel="noopener noreferrer">slajdy</a>) prowadzonej Andrzeja Białeckiego na  konferencji Lucene Eurocon 2010, który omawiał te tematy.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://solr.pl/2010/10/04/szybkie-spojrzenie-indexsorter/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Co to jest schema ?</title>
		<link>https://solr.pl/2010/08/16/co-to-jest-schema/</link>
					<comments>https://solr.pl/2010/08/16/co-to-jest-schema/#respond</comments>
		
		<dc:creator><![CDATA[Rafał Kuć]]></dc:creator>
		<pubDate>Mon, 16 Aug 2010 14:07:45 +0000</pubDate>
				<category><![CDATA[Solr]]></category>
		<category><![CDATA[analiza]]></category>
		<category><![CDATA[filtr]]></category>
		<category><![CDATA[indeks]]></category>
		<category><![CDATA[index]]></category>
		<category><![CDATA[pole]]></category>
		<category><![CDATA[schema]]></category>
		<category><![CDATA[schema.xml]]></category>
		<category><![CDATA[solr]]></category>
		<category><![CDATA[tokenizer]]></category>
		<category><![CDATA[typ]]></category>
		<category><![CDATA[typ pola]]></category>
		<category><![CDATA[type]]></category>
		<guid isPermaLink="false">http://sematext.solr.pl/?p=24</guid>

					<description><![CDATA[Jednym z plików konfiguracyjnych opisujących każde wdrożenie Solr jest plik schema.xml. Opisuje on jedną z najważniejszych rzeczy dotyczącą wdrożenia &#8211; strukturę indeksu. Informacje zawarte w tym pliku pozwalają kontrolować, jak zachowuje się Solr podczas indeksowania danych, czy też zadawania zapytań]]></description>
										<content:encoded><![CDATA[<p>Jednym z plików konfiguracyjnych opisujących każde wdrożenie Solr jest plik <em>schema.xml</em>. Opisuje on jedną z najważniejszych rzeczy dotyczącą wdrożenia &#8211; strukturę indeksu. Informacje zawarte w tym pliku pozwalają kontrolować, jak zachowuje się Solr podczas indeksowania danych, czy też zadawania zapytań do odpowiednich pól. <em>Schema.xml</em> to jednak nie tylko sama struktura indeksu, to także szczegółowe informacje o typach danych, które mają duży wpływ na zachowanie Solr, a z reguły są traktowane po macoszemu. Tym wpisem postaram się przybliżyć składowe pliku <em>schema.xml</em>.</p>
<p><span id="more-24"></span></p>
<p>Plik <em>schema.xml</em> składa się z kilku części:</p>
<ul>
<li> wersji,</li>
<li>definicji typów,</li>
<li>definicji pól,</li>
<li>sekcji <em>copyField</em>,</li>
<li>dodatkowych definicji.</li>
</ul>
<h3>Wersja</h3>
<p>Pierwszą rzeczą na jaką natrafimy w pliku schema.xml jest wersja. Jest to informacja o tym jak Solr ma traktować niektóre z atrybutów w pliku schema.xml. Definicja ta wygląda następująco:
</p>
<pre class="brush:xml">&lt;schema name="example" version="1.3"&gt;</pre>
<p>Należy pamiętać, iż nie jest to definicja wersji z punktu widzenia naszego projektu. W tym momencie Solr obsługuje 4 wersje pliku <em>schema.xml</em>:</p>
<ul>
<li>1.0 &#8211; nie istniał atrybut <em>multiValued</em>, wszystkie pola były domyślnie wielowartościowe.</li>
<li>1.1 &#8211; wprowadzono atrybut <em>multiValued</em>, domyślna wartość atrybutu to <em>false</em>.</li>
<li>1.2 &#8211; wprowadzono atrybut <em>omitTermFreqAndPositions</em>, domyślna wartość to <em>true </em>dla wszystkich pól, oprócz pól tekstowych.</li>
<li>1.3 &#8211; usunięto opcjonalną możliwość kompresji pól.</li>
</ul>
<h3>Definicje typów</h3>
<p>Definicje typów można logicznie podzielić na dwie oddzielne sekcje &#8211; typy proste i typy złożone. Typy proste w przeciwieństwie do typów złożonych nie posiadają zdefiniowanych filtrów i tokenizera.</p>
<p><strong>Typy proste</strong></p>
<p>Kolejnymi definicjami, na jakie trafimy w pliku<em> schema.xml</em> są definicje typów z których składać się będzie nasz indeks. Każdy z typów opisany jest szeregiem atrybutów, które opisują zachowanie danego typu. Na początek kilka atrybutów, które opisują każdy typ:</p>
<ul>
<li><em>name </em>&#8211; nazwa typu, atrybut wymagany,</li>
<li><em>class </em>&#8211; klasa, która odpowiada za implementację typu. Warto pamiętać, że  klasy standardowo dostarczane z Solr będą miały nazwy z przedrostkiem  'solr&#8217;.</li>
</ul>
<p>Oprócz dwóch wymienionych powyżej, typy mogą mieć jeszcze następujące atrybuty opcjonalne:</p>
<ul>
<li><em>sortMissingLast</em> &#8211; atrybut określający, jak mają być traktowane wartości w polu opartym o ten typ podczas sortowania. W przypadku ustawienia na wartość <em>true </em>na końcu listy wyników zawsze będą dokumenty nie posiadające wartości w polach oparty o dany typ &#8211; bez względu na to, czy sortujemy rosnąco, czy malejąco. Domyślna wartość atrybutu to <em>false</em>. Atrybut może być stosowany, tylko w przypadku typów, które przez Lucene traktowane są jako string.</li>
<li><em>sortMissingFirst </em>&#8211; atrybut określający, jak mają być traktowane wartości  w polu opartym o ten typ podczas sortowania. W przypadku ustawienia na  wartość true na początku listy wyników zawsze będą dokumenty nie  posiadające wartości w polach oparty o dany typ &#8211; bez względu na to, czy  sortujemy rosnąco, czy malejąco. Domyślna wartość atrybutu to <em>false</em>.  Atrybut może być stosowany, tylko w przypadku typów, które przez Lucene  traktowane są jako string.</li>
<li><em>omitNorms </em>&#8211; atrybut określający, czy podczas analizy mają być wyliczane normalizacje.</li>
<li><em>omitTermFreqAndPositions </em>&#8211; atrybut określający, czy podczas analizy ma  być pomijane wyliczanie częstotliwości poszczególnych termów oraz ich  pozycji w dokumencie.</li>
<li><em>indexed </em>&#8211; atrybut określający, czy pola oparte o ten typ mają przechowywać oryginalne wartości.</li>
<li><em>positionIncrementGap </em>&#8211; co ile pozycji (a dokładniej pozycji tokenów w strumieniu tokenów) ma być wyliczane trafienie.</li>
</ul>
<p>Warto pamiętać, iż w przypadku domyślnego ustawienia atrybutów sortMissingLast i sortMissingFirst Lucene będzie stosować zachowanie polegające na umieszczeniu dokumentów z pustymi wartościami na początku w przypadku sortowania rosnącego, a na końcu listy wyników w przypadku sortowania malejącego.</p>
<p>Kolejną opcją typów prostych, jednak dotyczącą tylko nowych typów liczbowych (typy<em> Trie*Field</em>), jest następujący atrybut:</p>
<ul>
<li><em>precisionStep </em>&#8211; atrybut określający ilość bitów precyzji. Im większa ilość bitów, tym szybsze zapytania oparte o przedziały liczbowe. Wiąże się to jednak także ze wzrostem wielkości indeksu, jako, że indeksowanych jest więcej wartości. Ustawienie wartości atrybutu na 0 wyłącza funkcjonalność indeksowania na różnych precyzjach.</li>
</ul>
<p>Przykładem zdefiniowanego typu prostego może być na przykład:
</p>
<pre class="brush:xml">&lt;fieldType name="string" class="solr.StrField" sortMissingLast="true" omitNorms="true"/&gt;</pre>
<p><strong>Typy złożone</strong></p>
<p>Oprócz typów prostych, plik <em>schema.xml</em> może zawierać typy składające się z tokenizera oraz filtrów. Tokenizer odpowiada za podzielenie zawartości pola na tokeny, natomiast filtry odpowiadają za dalszą analizę. Na przykład typ, który odpowiada za przechowywanie tekstów w języku polskim, mogłoby składać się z tokenizera odpowiadającego za dzielenie słów na podstawie białych znaków oraz kropek i przecinków, a przykładowe filtry mogłyby odpowiadać za sprowadzanie powstałych tokenów do małych liter, dalsze dzielenie tokenów (np. na podstawie myślników), a następnie sprowadzanie tokenów do formy podstawowej.</p>
<p>Typy złożone, tak jak typy proste, mają swoją nazwę (atrybut <em>name</em>) oraz klasę która odpowiada za implementację (atrybut <em>class</em>). Mogą się także charakteryzować innymi atrybutami opisanymi w przypadku typów prostych (na tych samych zasadach). Dodatkowo jednak typy złożone mogą posiadać definicję tokenizera oraz filtrów, które mają być wykorzystane na etapie indeksowania, jak i na etapie zadawania zapytań. Jak zapewne większość wie, dla danego etapu (indeksowanie, bądź zadawanie zapytań) może być zdefiniowany szereg filtrów oraz tylko i wyłącznie jeden tokenizer. Przykładowo, tak wygląda definicja typu tekstowego w przykładowej instalacji dostarczanej razem z Solr:
</p>
<pre class="brush:xml">&lt;fieldType name="text" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="true"&gt;
   &lt;analyzer type="index"&gt;
      &lt;tokenizer class="solr.WhitespaceTokenizerFactory"/&gt;
      &lt;filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" /&gt;
      &lt;filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/&gt;
      &lt;filter class="solr.LowerCaseFilterFactory"/&gt;
      &lt;filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/&gt;
      &lt;filter class="solr.PorterStemFilterFactory"/&gt;
   &lt;/analyzer&gt;
   &lt;analyzer type="query"&gt;
      &lt;tokenizer class="solr.WhitespaceTokenizerFactory"/&gt;
      &lt;filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/&gt;
      &lt;filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" /&gt;
      &lt;filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/&gt;
      &lt;filter class="solr.LowerCaseFilterFactory"/&gt;
      &lt;filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/&gt;
      &lt;filter class="solr.PorterStemFilterFactory"/&gt;
   &lt;/analyzer&gt;
&lt;/fieldType&gt;</pre>
<p>Warto zauważyć dodatkowy atrybut dla pola tekstowego:</p>
<ul>
<li><em>autoGeneratePhraseQueries</em></li>
</ul>
<p>Atrybut odpowiada za to, jak zachowują się filtry przy rozdzielaniu tokenów. Niektóre z filtrów (taki, jak np. <em>WordDelimiterFilter</em>) pozwala na dzielenie słów np. za pomocą znaku myślnika. Ustawienie atrybutu na wartość true (wartość domyślna) powoduje automatyczne generowanie zapytań o frazę, czyli tzw. <em>PhraseQueries</em>. Oznacza to, że np. dla słowa &#8222;wi-fi&#8221;, które zostanie rozbite przez filtr WordDelimiterFilter na słowa &#8222;wi&#8221; oraz &#8222;fi&#8221; zostanie wygenerowane zapytanie <code>pole:"wi fi"</code>, a nie zapytanie <code>pole:wi OR pole:fi</code>. Należy jednak pamiętać, iż atrybut ten potrafi gubić się w przypadku pól, które mają zdefiniowany tokenizer dzielący słowa inaczej, niż po białych znakach.</p>
<p>Wracając do definicji typu. Jak widać, przykład który podałem ma dwie główne sekcje:
</p>
<pre class="brush:xml">&lt;analyzer type="index"&gt;</pre>
<p>oraz
</p>
<pre class="brush:xml">&lt;analyzer type="query"&gt;</pre>
<p>Pierwsza z sekcji odpowiada za definicję typu, która będzie użyta w przypadku indeksowania dokumentów, druga sekcja odpowiada za definicję typu używaną w przypadku zapytań do pól opartych o ten typ. Warto wiedzieć, że jeżeli chcemy korzystać z tej samej definicji dla indeksowania i zadawania zapytań, możemy zrezygnować z obu sekcji. Wtedy nasza definicja typu wyglądałaby na przykład następująco:
</p>
<pre class="brush:xml">&lt;fieldType name="text" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="true"&gt;
   &lt;tokenizer class="solr.WhitespaceTokenizerFactory"/&gt;
   &lt;filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" /&gt;
   &lt;filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/&gt;
   &lt;filter class="solr.LowerCaseFilterFactory"/&gt;
   &lt;filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/&gt;
   &lt;filter class="solr.PorterStemFilterFactory"/&gt;
&lt;/fieldType&gt;</pre>
<p>Jak już wspomniałem w definicji każdego typu złożonego występuje jeden tokenizer oraz szereg filtrów (choć nie koniecznie). Nie będę opisywał poszczególnych opcji każdego z filtrów oraz tokenizerów dostępnych standardowo z Solr. Informacje te dostępne są pod następującym adresem: <a href="http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters" target="_blank" rel="noopener noreferrer">http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters</a>.</p>
<p>Na koniec chciałem dodać ważną rzecz. Począwszy od Solr 1.4 tokenizer nie musi być pierwszym mechanizmem jaki zajmuje się analizą danego pola &#8211; zostały wprowadzone nowe filtry tzw. Char Filters, które operują na nietokenizowanym jeszcze polu i dopiero później przekazują wynik do tokenizera. Warto o tym wiedzieć, ponieważ może się to kiedyś przydać.</p>
<p><strong>Typy wielowymiarowe</strong></p>
<p>Na koniec zostawiłem sobie mały dodatek &#8211; opis nowości w Solr 1.4 &#8211; pól wielowymiarowych, czyli pól składających się z szeregu innych pól. Ogólnie można powiedzieć, iż założenie tego typu pól było proste &#8211; umożliwić przechowywanie w Solr par, trójek, czy większej ilości powiązanych ze sobą danych, takich jak na przykład współrzędne geograficzne punktu. W praktyce realizowane jest to za pomocą pól dynamicznych, jednak pozwolę sobie nie wgłębiać się w szczegóły implementacji. Przykładowa definicja typu, składającego się z dwóch pól:
</p>
<pre class="brush:xml">&lt;fieldType name="location" class="solr.PointType" dimension="2" subFieldSuffix="_d"/&gt;</pre>
<p>Oprócz standardowych atrybutów <em>name </em>oraz <em>class </em>pojawiają się dwa nowe:</p>
<ul>
<li><em>dimension </em>&#8211; ilość wymiarów (atrybut wykorzystywany przez klasę <em>solr.PointType)</em>.</li>
<li><em>subFieldSuffix </em>&#8211; przyrostek, jaki będzie dodawany do pól dynamicznych  wchodzących w skład pola. Ważne aby pamiętać, iż tak zdefiniowane pole  stworzy trzy pola w indeksie &#8211; pole oparte o typ <em>location </em>oraz dwa pola dynamiczne<em></em><em></em>.</li>
</ul>
<h3>Definicje pól</h3>
<p>Definicje pól to kolejna sekcja w pliku <em>schema.xml</em>, to sekcja, która teoretycznie powinna interesować nas najbardziej podczas projektowania indeksu Solr. Z reguły znajdziemy tutaj dwa rodzaje definicji pól:</p>
<ol>
<li>Pola statyczne</li>
<li>Pola dynamiczne</li>
</ol>
<p>Pola te są różnie traktowane przez Solr. Pierwszy typ pól, to pola, które dostępne są pod jedną nazwą. Pola dynamiczne, jako nazwę mają proste wyrażenie regularne (nazwa zaczynająca się lub kończąca się znakiem '*&#8217;). Należy pamiętać, iż Solr najpierw wybiera pole statyczne, a dopiero później pola dynamiczne. Dodatkowo w przypadku nazwy pola, która pasuje do więcej, niż jednej definicji, wybrane zostanie pole z dłuższą definicją nazwy.</p>
<p>Wracając do definicji pól (zarówno statycznych, jak i dynamicznych), składają się one z następujących atrybutów:</p>
<ul>
<li><em>name </em>&#8211; nazwa pola (atrybut wymagany).</li>
<li><em>type </em>&#8211; typ pola, czyli jeden z typów zdefiniowanych wcześniej (atrybut wymagany).</li>
<li><em>indexed </em>&#8211; czy pole ma być indeksowane (ustawiamy na wartość <em>true</em>, jeżeli chcemy wyszukiwać lub sortować po tym polu).</li>
<li><em>stored </em>&#8211; czy mają być przechowywane oryginalne wartości (ustawiamy na  wartość <em>true</em>, jeżeli chcemy pobierać oryginalną wartość przekazaną do  tego pola).</li>
<li><em>omitNorms </em>&#8211; czy ma być pomijane wyliczanie norm dla tego pola (ustawiamy  na wartość <em>true </em>dla pól, dla których będziemy stosować wyszukiwanie pełnotekstowe).</li>
<li><em>termVectors </em>&#8211; ustawiamy na wartość true w przypadku kiedy chcemy  przechowywać tzw. wektor termów. Domyślna wartość parametru, to wartość <em> false</em>. Niektóre funkcjonalności wymagają ustawienia tego parametru na <em> true </em>(np. <em>MoreLikeThis</em>, czy <em>FastVectorHighlighting</em>).</li>
<li><em>termPositions </em>&#8211; ustawiamy na wartość <em>true</em>, jeżeli chcemy aby wraz z  wektorem przechowywane były pozycje termów. Ustawienie na wartość <em>true </em>spowoduje wzrost wielkości indeksu.</li>
<li><em>termOffsets </em>&#8211; ustawiamy na wartość <em>true</em>, jeżeli chcemy aby wraz z  wektorem termów przechowywane były przesunięcia. Ustawienie na wartość <em> true </em>spowoduje wzrost wielkości indeksu.</li>
<li><em>default </em>&#8211; domyślna wartość jaka ma zostać nadana polu, jeżeli w dokumencie nie było podanej żadnej wartości.</li>
</ul>
<p>Poniżej przykładowe definicje pól:
</p>
<pre class="brush:xml">&lt;field name="id" type="string" indexed="true" stored="true" required="true" /&gt;
&lt;field name="includes" type="text" indexed="true" stored="true" termVectors="true" termPositions="true" termOffsets="true" /&gt;
&lt;field name="timestamp" type="date" indexed="true" stored="true" default="NOW" multiValued="false"/&gt;
&lt;dynamicField name="*_i" type="int" indexed="true" stored="true"/&gt;</pre>
<p>Na koniec jeszcze dodatkowa informacja o której warto pamiętać. Oprócz atrybutów wymienionych powyżej przy definicji pola możemy nadpisywać atrybuty jakie zostały zdefiniowane dla typu (np. czy pole ma być wielowartościowe &#8211; z powyższego przykładu pole o nazwie timestamp). Czasami taka funkcjonalność może się przydać, jeżeli potrzebujemy specyficznego pola, którego typ różni się nieznacznie od innego typu (tak jak w przykładzie &#8211; tylko atrybutem multiValued). Oczywiście należy pamiętać o ograniczeniach nakładanych na poszczególne atrybuty związane z typami.</p>
<h3>Sekcja copyField</h3>
<p>W skrócie sekcja odpowiadająca za kopiowanie zawartości pól do innych pól. Definiujemy z jakiego pola ma być skopiowana zawartość oraz do jakiego pola. Należy pamiętać, iż kopiowana jest zawartość przed analizą, czy wartość jaka przychodzi w danych. Przykład definicji copyField:
</p>
<pre class="brush:xml">&lt;copyField source="category" dest="text"/&gt;</pre>
<p>W gwoli ścisłości, występujące atrybuty oznaczają:</p>
<ul>
<li><em>source </em>&#8211; pole źródłowe,</li>
<li><em>dest </em>&#8211; pole docelowe.</li>
</ul>
<h3>Dodatkowe definicje</h3>
<p><strong>1. Zdefiniowanie unikalnego klucza</strong></p>
<p>Definicja unikalnego klucza, dzięki któremu możliwe będzie jednoznaczne zidentyfikowanie dokumentu. Zdefiniowanie unikalnego klucza nie jest konieczne, ale jest zalecane. Przykładowa definicja:
</p>
<pre class="brush:xml">&lt;uniqueKey&gt;id&lt;/uniqueKey&gt;</pre>
<p><strong>2. Zdefiniowanie domyślnego pola wyszukiwania</strong></p>
<p>Sekcja odpowiadająca za zdefiniowanie domyślnego pola, w którym Solr ma wyszukiwać w przypadku kiedy nie zostało podane żadne pole. Przykładowa definicja:
</p>
<pre class="brush:xml">&lt;defaultSearchField&gt;content&lt;/defaultSearchField&gt;</pre>
<p><strong>3. Zdefiniowanie domyślnego operatora logicznego</strong></p>
<p>Sekcja odpowiadająca za definicje domyślnego operatora logicznego, który będzie używany, jeżeli nie zostanie podany żaden operator logiczny. Przykładowa definicja wygląda w następujący sposób:
</p>
<pre class="brush:xml">&lt;solrQueryParser defaultOperator="OR"/&gt;</pre>
<p>Możliwe wartości to: <em>OR </em>oraz <em>AND</em>.</p>
<p><strong>4. Zdefiniowanie podobieństwa</strong></p>
<p>Na koniec zostaje nam zdefiniowanie podobieństwa, jakie będziemy wykorzystywać. Jest to raczej temat na inny wpis, należy jednak wiedzieć, iż w razie konieczności mamy możliwość zmiany domyślnego podobieństwa (aktualnie w trunku Solr są już dwie klasy obsługujące podobieństwo). Przykładowa definicja wygląda następująco:
</p>
<pre class="brush:xml">&lt;similarity class="pl.solr.similarity.CustomSimilarity" /&gt;</pre>
<h3>Kilka słów na koniec</h3>
<p>Powyżej przedstawione informacje powinny dać pewien wgląd na temat jakim jest plik <em>schema.xml</em> oraz za co odpowiadają poszczególne sekcje w tym pliku. W niedługim czasie postaram się napisać, czego wystrzegać się podczas projektowania indeksu.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://solr.pl/2010/08/16/co-to-jest-schema/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
	</channel>
</rss>
