<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>schema &#8211; Solr.pl</title>
	<atom:link href="https://solr.pl/tag/schema/feed/" rel="self" type="application/rss+xml" />
	<link>https://solr.pl</link>
	<description>All things to be found - Blog related to Apache Solr &#38; Lucene projects - https://solr.apache.org</description>
	<lastBuildDate>Thu, 12 Nov 2020 11:12:21 +0000</lastBuildDate>
	<language>pl-PL</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9</generator>
	<item>
		<title>Solr 4.2: Schema API</title>
		<link>https://solr.pl/2013/05/20/solr-4-2-schema-api/</link>
					<comments>https://solr.pl/2013/05/20/solr-4-2-schema-api/#respond</comments>
		
		<dc:creator><![CDATA[Rafał Kuć]]></dc:creator>
		<pubDate>Mon, 20 May 2013 10:11:50 +0000</pubDate>
				<category><![CDATA[Solr]]></category>
		<category><![CDATA[4.2]]></category>
		<category><![CDATA[api]]></category>
		<category><![CDATA[schema]]></category>
		<category><![CDATA[schema.xml]]></category>
		<category><![CDATA[solr]]></category>
		<guid isPermaLink="false">http://sematext.solr.pl/?p=511</guid>

					<description><![CDATA[Wraz z premierą Solr 4.2 dostaliśmy możliwość wykorzystania protokołu HTTP do pobierania informacji o strukturze indeksu Solr. Oczywiście, jeżeli ktoś potrzebował takiej funkcjonalności przez Solr 4.2 mógł pobrać plik schema.xml za pomocą odpowiedniego zapytania, przetworzyć go i wydobyć szukane informacje.]]></description>
										<content:encoded><![CDATA[<p>Wraz z premierą Solr 4.2 dostaliśmy możliwość wykorzystania protokołu HTTP do pobierania informacji o strukturze indeksu Solr. Oczywiście, jeżeli ktoś potrzebował takiej funkcjonalności przez Solr 4.2 mógł pobrać plik <em>schema</em><em>.xml</em> za pomocą odpowiedniego zapytania, przetworzyć go i wydobyć szukane informacje. Wraz z premierą Solr 4.2 dostaliśmy jednak bardzo wygodne narzędzie za pomocą którego jesteśmy w stanie wydobyć interesujące nas informacje bez konieczności przetwarzania całego pliku <em>schema.xml</em>.</p>
<p><span id="more-511"></span></p>
<h3>Możliwości</h3>
<p>Przyjrzymy się zatem nowemu API.</p>
<h4>Zwracanie informacji w formacie XML</h4>
<p>Bardzo dużo użytkowników Solr przyzwyczajonych jest do tego, iż dane z Solr zwracane są domyślnie w formacie XML, co nie jest prawdą w przypadku opisywanego API, którego domyślny format zwracanych danych to JSON. Jeżeli chcemy, aby powyżej opisane informacje zwracane były w formacie XML należy do każdego z wymienionych zapytań dodać parametr <em>wt=xml</em>, na przykład:
</p>
<pre class="brush:bash">$curl 'http://localhost:8983/solr/collection1/schema/fieldtypes?wt=xml'</pre>
<h4>Pobieranie zdefiniowanych pól</h4>
<p>Zacznijmy od pobierania informacji na temat pól zdefiniowanych w indeksie. W tym celu udostępnione zostały dwie możliwości:</p>
<ol>
<li>Pobieranie informacji na temat wszystkich pól</li>
<li>Pobieranie informacji na temat konkretnego pola</li>
</ol>
<p>W pierwszym wypadku należy zadać następujące zapytanie:
</p>
<pre class="brush:bash">$curl 'http://localhost:8983/solr/collection1/schema/fields'</pre>
<p>W drugim przypadku wystarczy do powyższego zapytania dodać znak <em>/</em> oraz nazwę pola. Na przykład, aby pobrać dane na temat pola <em>author</em> należałoby wysłać następujące zapytanie:
</p>
<pre class="brush:bash">$curl 'http://localhost:8983/solr/collection1/schema/fields/author'</pre>
<p>Odpowiedź Solr na pierwsze zapytanie wygląda następująco:
</p>
<pre class="brush:plain">{
&nbsp; "responseHeader":{
&nbsp;&nbsp;&nbsp; "status":0,
&nbsp;&nbsp;&nbsp; "QTime":1},
&nbsp; "fields":[{
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "name":"_version_",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "type":"long",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "indexed":true,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "stored":true},
&nbsp;&nbsp;&nbsp; {
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "name":"author",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "type":"text_general",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "indexed":true,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "stored":true},
&nbsp;&nbsp;&nbsp; {
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "name":"cat",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "type":"string",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "multiValued":true,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "indexed":true,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "stored":true},
&nbsp;&nbsp;&nbsp; {
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "name":"category",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "type":"text_general",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "indexed":true,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "stored":true},
&nbsp;&nbsp;&nbsp; {
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "name":"id",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "type":"string",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "multiValued":false,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "indexed":true,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "required":true,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "stored":true,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "uniqueKey":true},
&nbsp;&nbsp;&nbsp; {
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "name":"url",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "type":"text_general",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "indexed":true,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "stored":true},
&nbsp;&nbsp;&nbsp; {
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "name":"weight",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "type":"float",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "indexed":true,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "stored":true}]}</pre>
<p>Natomiast odpowiedź na zapytanie dotyczące pojedynczego pola wygląda następująco:
</p>
<pre class="brush:plain">{
  "responseHeader":{
    "status":0,
    "QTime":0},
  "field":{
    "name":"author",
    "type":"text_general",
    "indexed":true,
    "stored":true}}</pre>
<h4>Pobieranie zdefiniowanych pól dynamicznych</h4>
<p>Dokładnie tak samo, jak w powyższym przypadku wygląda sytuacja kiedy chcemy pobrać informacje na temat pól dynamicznych. Także i w tym przypadku mamy dwie możliwości:</p>
<ol>
<li>Pobranie informacji na temat wszystkich pól dynamicznych</li>
<li>Pobranie informacji na temat konkretnego wzorca pola dynamicznego</li>
</ol>
<p>W pierwszym wypadku należy zadać następujące zapytanie:
</p>
<pre class="brush:bash">$curl 'http://localhost:8983/solr/collection1/schema/dynamicfields'</pre>
<p>W drugim przypadku, podobnie jak wcześniej, dodajemy znak <em>/</em>, a następnie wzorzec:
</p>
<pre class="brush:bash">$curl 'http://localhost:8983/solr/collection1/schema/dynamicfields/random_*'</pre>
<p>Odpowiedź Solr na pierwsze zapytanie wygląda następująco:
</p>
<pre class="brush:plain">{
&nbsp; "responseHeader":{
&nbsp;&nbsp;&nbsp; "status":0,
&nbsp;&nbsp;&nbsp; "QTime":2},
&nbsp; "dynamicfields":[{
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "name":"*_coordinate",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "type":"tdouble",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "indexed":true,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "stored":false},
&nbsp;&nbsp;&nbsp; {
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "name":"ignored_*",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "type":"ignored",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "multiValued":true},
&nbsp;&nbsp;&nbsp; {
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "name":"random_*",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "type":"random"},
&nbsp;&nbsp;&nbsp; {
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "name":"*_p",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "type":"location",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "indexed":true,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "stored":true},
&nbsp;&nbsp;&nbsp; {
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "name":"*_c",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "type":"currency",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "indexed":true,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "stored":true}]}</pre>
<p>Natomiast odpowiedź na zapytanie dotyczące pojedynczego pola wygląda następująco:
</p>
<pre class="brush:plain">{
&nbsp; "responseHeader":{
&nbsp;&nbsp;&nbsp; "status":0,
&nbsp;&nbsp;&nbsp; "QTime":1},
&nbsp; "dynamicfield":{
&nbsp;&nbsp;&nbsp; "name":"random_*",
&nbsp;&nbsp;&nbsp; "type":"random"}}</pre>
<h4>Pobieranie typów pól</h4>
<p>Jak można się domyślać, podobnie jak w wyżej wymienionych przypadkach, tak samo w przypadku pobierania informacji na temat typów pól możemy dostać od Solr informacje na temat:</p>
<ol>
<li>Wszystkich typów pól zdefiniowanych w pliku <em>schema.xml</em></li>
<li>Pojedynczego zdefiniowanego typu</li>
</ol>
<p>W pierwszym wypadku należy zadać następujące zapytanie:
</p>
<pre class="brush:bash">$curl 'http://localhost:8983/solr/collection1/schema/fieldtypes'</pre>
<p>W drugim przypadku, na dokładnie takiej samej zasadzie dodajemy znak <em>/</em>, a następnie nazwę typu:
</p>
<pre class="brush:bash">$curl 'http://localhost:8983/solr/collection1/schema/fieldtypes/text_gl'</pre>
<p>Odpowiedź Solr na pierwsze zapytanie wygląda następująco:
</p>
<pre class="brush:plain">{
&nbsp; "responseHeader":{
&nbsp;&nbsp;&nbsp; "status":0,
&nbsp;&nbsp;&nbsp; "QTime":3},
&nbsp; "fieldTypes":[{
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "name":"alphaOnlySort",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "class":"solr.TextField",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "sortMissingLast":true,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "omitNorms":true,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "analyzer":{
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "class":"solr.TokenizerChain",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "tokenizer":{
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "class":"solr.KeywordTokenizerFactory"},
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "filters":[{
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "class":"solr.LowerCaseFilterFactory"},
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "class":"solr.TrimFilterFactory"},
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "class":"solr.PatternReplaceFilterFactory",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "replace":"all",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "replacement":"",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "pattern":"([^a-z])"}]},
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "fields":[],
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "dynamicFields":[]},
&nbsp;&nbsp;&nbsp; {
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "name":"boolean",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "class":"solr.BoolField",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "sortMissingLast":true,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "fields":["inStock"],
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "dynamicFields":["*_bs",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "*_b"]},
&nbsp;&nbsp;&nbsp; {
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "name":"text_gl",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "class":"solr.TextField",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "positionIncrementGap":"100",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "analyzer":{
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "class":"solr.TokenizerChain",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "tokenizer":{
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "class":"solr.StandardTokenizerFactory"},
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "filters":[{
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "class":"solr.LowerCaseFilterFactory"},
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "class":"solr.StopFilterFactory",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "words":"lang/stopwords_gl.txt",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "ignoreCase":"true",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "enablePositionIncrements":"true"},
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "class":"solr.GalicianStemFilterFactory"}]},
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "fields":[],
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "dynamicFields":[]},
&nbsp;&nbsp;&nbsp; {
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "name":"tlong",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "class":"solr.TrieLongField",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "precisionStep":"8",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "positionIncrementGap":"0",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "fields":[],
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "dynamicFields":["*_tl"]}]}</pre>
<p>Natomiast odpowiedź na zapytanie dotyczące pojedynczego pola wygląda następująco:
</p>
<pre class="brush:plain">{
&nbsp; "responseHeader":{
&nbsp;&nbsp;&nbsp; "status":0,
&nbsp;&nbsp;&nbsp; "QTime":2},
&nbsp; "fieldType":{
&nbsp;&nbsp;&nbsp; "name":"text_gl",
&nbsp;&nbsp;&nbsp; "class":"solr.TextField",
&nbsp;&nbsp;&nbsp; "positionIncrementGap":"100",
&nbsp;&nbsp;&nbsp; "analyzer":{
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "class":"solr.TokenizerChain",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "tokenizer":{
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "class":"solr.StandardTokenizerFactory"},
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "filters":[{
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "class":"solr.LowerCaseFilterFactory"},
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "class":"solr.StopFilterFactory",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "words":"lang/stopwords_gl.txt",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "ignoreCase":"true",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "enablePositionIncrements":"true"},
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "class":"solr.GalicianStemFilterFactory"}]},
&nbsp;&nbsp;&nbsp; "fields":[],
&nbsp;&nbsp;&nbsp; "dynamicFields":[]}}</pre>
<p>Jak widać ilość zwracanych informacji jest dość duża <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/1f642.png" alt="🙂" class="wp-smiley" style="height: 1em; max-height: 1em;" /></p>
<h4>Pobieranie informacji na temat sekcji copyField</h4>
<p>Dodatkowo za pomocą opisywanego API jesteśmy w stanie pobrać informacje na temat sekcji <em>copyField</em> poprzez wysłanie następującego zapytania:
</p>
<pre class="brush:bash">$curl 'http://localhost:8983/solr/collection1/schema/copyfields'</pre>
<p>Odpowiedź na powyższe zapytanie jest następująca:
</p>
<pre class="brush:plain">{
  "responseHeader":{
    "status":0,
    "QTime":1},
  "copyfields":[{
      "source":"author",
      "dest":"text"},
    {
      "source":"cat",
      "dest":"text"},
    {
      "source":"content",
      "dest":"text"},
    {
      "source":"content_type",
      "dest":"text"},
    {
      "source":"description",
      "dest":"text"},
    {
      "source":"features",
      "dest":"text"},
    {
      "source":"author",
      "dest":"author_s",
      "destDynamicBase":"*_s"}]}</pre>
<h3>Przyszłość</h3>
<p>W Solr 4.3 opisywane API zostało usprawnione oraz jest przygotowywane do umożliwienia zmian w strukturze indeksu za pomocą protokołu HTTP. Możemy zatem spodziewać się, iż w jednej z kolejnych wersji serwera wyszukiwania Solr otrzymamy możliwość łatwej zmiany struktury indeksu, przynajmniej takich, które nie będą powodować konfliktów z już zaindeksowanymi danymi.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://solr.pl/2013/05/20/solr-4-2-schema-api/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Solr filtry: PatternReplaceCharFilter</title>
		<link>https://solr.pl/2011/05/09/solr-filtry-patternreplacecharfilter/</link>
					<comments>https://solr.pl/2011/05/09/solr-filtry-patternreplacecharfilter/#respond</comments>
		
		<dc:creator><![CDATA[Marek Rogoziński]]></dc:creator>
		<pubDate>Mon, 09 May 2011 17:45:06 +0000</pubDate>
				<category><![CDATA[Solr]]></category>
		<category><![CDATA[filtr]]></category>
		<category><![CDATA[filtrowanie]]></category>
		<category><![CDATA[schema]]></category>
		<category><![CDATA[schema.xml]]></category>
		<category><![CDATA[solr]]></category>
		<category><![CDATA[tokenizer]]></category>
		<guid isPermaLink="false">http://sematext.solr.pl/?p=240</guid>

					<description><![CDATA[Kontynuując przeglad filtrów dostępnych w Solr dziś przyglądamy się pracy PatternReplaceCharFilter. Jak łatwo się domyślić zadaniem filtra jest zamiana w strumieniu wejściowym tych fragmentów, które pasują do danego wyrażenia regularnego. Dostępne są następujące parametry: pattern (wymagany) – wartość, która zostanie]]></description>
										<content:encoded><![CDATA[<p>Kontynuując przeglad filtrów dostępnych w Solr dziś przyglądamy się pracy PatternReplaceCharFilter.</p>
<p>Jak łatwo się domyślić zadaniem filtra jest zamiana w strumieniu wejściowym tych fragmentów, które pasują do danego wyrażenia regularnego.</p>
<p><span id="more-240"></span></p>
<p>Dostępne są następujące parametry:</p>
<ul>
<li><em>pattern</em> (wymagany) – wartość, która zostanie zamieniona 	(wyrażenie regularne)</li>
<li><em>replacement</em> (domyślnie: &#8222;&#8221;) &#8211; wartość, którą 	zostanie zastąpiony dopasowany do wyrażenia regularnego fragment</li>
<li><em>blockDelimiters</em></li>
<li><em>maxBlockChars</em> (domyślnie: 10000, większe od 0) – bufor używany przy porówaniu</li>
</ul>
<h2>Przykłady wykorzystania</h2>
<p>Wykorzystanie filtru sprowadza się do dodania jego definicji w definicji typu pola w schema.xml np.:
</p>
<pre class="brush:xml">&lt;fieldType name="textCharNorm" class="solr.TextField"&gt;
  &lt;analyzer&gt;
    &lt;charFilter class="solr.PatternReplaceCharFilterFactory" …/&gt;
    &lt;charFilter class="solr.MappingCharFilterFactory" mapping="mapping-ISOLatin1Accent.txt"/&gt;
    &lt;tokenizer class="solr.WhitespaceTokenizerFactory"/&gt;
  &lt;/analyzer&gt;
&lt;/fieldType&gt;</pre>
<p>Poniżej przykładowe definicje dla różnych przypadków.</p>
<h3>Wycinanie fragmentów tekstu</h3>
<p>To najprostszy przypadek. Należy tylko podać w atrybucie pattern to co chcemy wyciąć i już. Przykład:
</p>
<pre class="brush:xml">&lt;charFilter class="solr.PatternReplaceCharFilterFactory" pattern="#TAG" /&gt;</pre>
<p>co spowoduje pomijanie w treści danych elementów: &#8222;#TAG&#8221;</p>
<h3>Zamiana fragmentów tekstu</h3>
<p>Przypadek podobny do tego wyżej, natomiast chcemy zamienić tekst na inny.
</p>
<pre class="brush:xml">&lt;charFilter class="solr.PatternReplaceCharFilterFactory" pattern="#TAG" replacement="[CENZORED]"/&gt;</pre>
<h3>Zamiana wzorców</h3>
<p>Powyższe przypadki były trywialne. To, co stanowi o sile tego filtru to obsługa wyrażeń regularnych. (Używasz wyrażeń regularnych, prawda?) Poniższy przykład jest prosty – ukrywa  wszystkie liczby (zamieniając je na gwiazdki). Radzi sobie również z liczbami oddzielonymi myślnikami, traktując je jako pojedyncze liczby.
</p>
<pre class="brush:xml">&lt;charFilter class="solr.PatternReplaceCharFilterFactory" pattern="(\\d+-*\\d+)+" replacement="*"/&gt;</pre>
<h3>Manipulacja tekstem</h3>
<p>Tekst zastępujący nie musi być prostym tekstem. Obsługiwane są tzw. odwołania wsteczne, które pozwalają na odwołanie się do fragmentów dopasowanego wzorca. Po szczegóły odsyłam do dokumentacji wyrażeń regularnych. W poniższym przykładzie wszystkie zwielokrotnione znaki zastępowane są znakiem pojedynczym.
</p>
<pre class="brush:xml">&lt;charFilter class="solr.PatternReplaceCharFilterFactory" pattern="(.)\\1" replacement="$1"/&gt;</pre>
<h2>Parametry zaawansowane</h2>
<p>Do tej pory nie wspomniałem o parametrach: <em>blockDelimiters</em> i <em>maxBlockChars</em>. Jak wynika ze źródeł filtra, są one związane ze sposobem jego implementacji. <em>CharFilter</em> z założenia operuje na pojedynczych znakach, natomiast dopasowanie wzorca wymaga wczytania do wewnętrznego bufora większej liczby znaków. <em>MaxBlockChars</em> pozwala na okreśłenie rozmiaru tego bufora. W zasadzie nie musisz się tym martwić, jeśli wzorzec, który zdefiniowałeś, nie powoduje dopasowania większego kawałka tekstu (większy oznacza tu powyżej 10tys znaków). <em>BlockDelimiters</em> pozwala dodatkowo zoptymalizować wypełnianie tego bufora. Może być używany, jeśli informacja w analizowanym polu jest w jakiś sposób podzielona na sekcje (np. jest to CSV, zdania itp.). Jest to tekst, który informuje skaner, że zaczyna się nowa sekcja, w związku z tym, ew fragmenty dopasowania z poprzedniej sekcji już się nie przydadzą.</p>
<h2>Ograniczenia</h2>
<p>Ważnym ograniczeniem filtra jest to, że w bezpośredni sposób manipuluje napisem wejściowym, nie zachowując informacji związanych z początkowym tekstem. Oznacza to, że jeśli filtr usunie jakiś fragment napisu, lub doda nowy fragment, tokenizer tego nie zauważy i położenie tokenów w oryginalnym polu nie zostanie poprawnie zapisane. Trzeba mieć tego świadomość w sytuacji używania zapytań biorących pod uwagę wzajemne położenie słów oraz w przypadku używania highlightingu.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://solr.pl/2011/05/09/solr-filtry-patternreplacecharfilter/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Aplikacja &#8222;sprzedaż samochodów&#8221; – Spatial Search, czyli wprowadzenie danych lokalizacyjnych (cz. 3)</title>
		<link>https://solr.pl/2011/03/14/aplikacja-sprzedaz-samochodow-spatial-search-czyli-wprowadzenie-danych-lokalizacyjnych-cz-3/</link>
					<comments>https://solr.pl/2011/03/14/aplikacja-sprzedaz-samochodow-spatial-search-czyli-wprowadzenie-danych-lokalizacyjnych-cz-3/#respond</comments>
		
		<dc:creator><![CDATA[Rafał Andrzejewski]]></dc:creator>
		<pubDate>Mon, 14 Mar 2011 08:13:38 +0000</pubDate>
				<category><![CDATA[Solr]]></category>
		<category><![CDATA[howto]]></category>
		<category><![CDATA[schema]]></category>
		<category><![CDATA[solr]]></category>
		<guid isPermaLink="false">http://sematext.solr.pl/?p=207</guid>

					<description><![CDATA[Ilość ogłoszeń w naszej bazie rozrosła się do tego stopnia, że klienci zaproponowali dodanie nowej opcji przy filtrowaniu wyników wyszukiwania oraz nowej opcji sortowania. Mianowicie musimy dodać funkcjonalność, która pozwoli nam operować na danych związanych z lokalizacją auta w danym]]></description>
										<content:encoded><![CDATA[<p lang="pl-PL">Ilość ogłoszeń w naszej bazie rozrosła się do tego stopnia, że klienci zaproponowali dodanie nowej opcji przy filtrowaniu wyników wyszukiwania oraz nowej opcji sortowania. Mianowicie musimy dodać funkcjonalność, która pozwoli nam operować na danych związanych z lokalizacją auta w danym ogłoszeniu.</p>
<p><span id="more-207"></span></p>
<h2>Analiza wymagań</h2>
<p lang="pl-PL">Chcemy dodać dwie nowe funkcjonalności:</p>
<ol>
<li>Zawężanie wyników wyszukiwania w taki sposób, aby możliwe było wyświetlenie tylko tych aut, które są położone nie dalej niż x kilometrów od określonego miejsca, gdzie x = 50,100,200,500,1000 km.</li>
<li>Sortowanie wyników wyszukiwania po odległości pomiędzy danym punktem, a lokalizacją auta z danego ogłoszenia.</li>
</ol>
<p lang="pl-PL">W celu realizacji powyższych zadań, skorzystamy z funkcjonalności solr zwanej &#8222;Spatial Search&#8221;, która dostępna jest od wersji 3.1. Zmiany, które będziemy musieli wprowadzić, dotyczyć będą modyfikacji pliku schema.xml oraz danych wejściowych, do których dodamy informację o położeniu geograficznym każdego z aut. Na końcu zostanie nam już tylko odpowiednie złożenie zapytań.</p>
<p lang="pl-PL">
<h2>Zmiany w schema.xml</h2>
<ol>
<li>Definicja nowych typów pól:
<ul>
<li>pierwsza definicja to nic innego jak kolejny typ liczbowy &#8211; double:</li>
<pre class="brush:xml">&lt;fieldType name="tdouble" precisionStep="8" omitNorms="true" positionIncrementGap="0"/&gt;</pre>
<li> druga definicja zaś wykorzystuje specjalną klasę &#8222;solr.LatLonType&#8221;, która pozwoli nam na zaindeksowanie danych geograficznych wykorzystując pole dynamiczne o suffixie &#8222;_coordinate&#8221;:</li>
<pre class="brush:xml">&lt;fieldType name="location" subFieldSuffix="_coordinate"/&gt;</pre>
</ul>
</li>
<li>Definicja &nbsp;nowych pól:
<ul>
<li>pole, które będzie wykorzystywane do gromadzenia informacji o nazwie miejscowości, z którego pochodzi auto:</li>
<pre class="brush:xml">&lt;field name="city" type="string" indexed="true" stored="true" /&gt;</pre>
<li>pole &#8222;loc&#8221; posłuży nam do zaindeksowania danych lokalizacyjnych:</li>
<pre class="brush:xml">&lt;field name="loc" type="location" indexed="true" stored="false"/&gt;</pre>
<li>pole dynamiczne będzie wykorzystywane wewnętrznie do gromadzenia informacji, które wprowadzimy do pola &#8222;loc&#8221;:</li>
<pre class="brush:xml">&lt;dynamicField name="*_coordinate"  type="tdouble" indexed="true" stored="false"/&gt;</pre>
</ul>
</li>
</ol>
<h2>Analiza danych wejściowych</h2>
<p lang="pl-PL">W celu prezentacji sposobu modyfikacji nowych danych, weźmy próbkę 5-ciu ogłoszeń z miast:</p>
<ol>
<li>Koszalin
<ul>
<li><em>szerokość geograficzna</em>: 54.12</li>
<li><em>długość geograficzna</em>: 16.11</li>
</ul>
</li>
<li>Białystok
<ul>
<li><em>szerokość geograficzna</em>: 53.08</li>
<li><em>długość geograficzna</em>: 23.09</li>
</ul>
</li>
<li>Szczecin
<ul>
<li><em>szerokość geograficzna</em>: 53.25</li>
<li><em>długość geograficzna</em>: 14.35</li>
</ul>
</li>
<li>Gdańsk
<ul>
<li><em>szerokość geograficzna</em>: 54.21</li>
<li><em>długość geograficzna</em>: 18.40</li>
</ul>
</li>
<li>Warszawa
<ul>
<li><em>szerokość geograficzna</em>: 52.15</li>
<li><em>długość geograficzna</em>: 21.00</li>
</ul>
</li>
</ol>
<p lang="pl-PL">Dane lokalizacyjne wprowadzamy do pola &#8222;loc&#8221; wpisując szerokość geograficzną danego miasta oraz po przecinku jego długość. Nasze dane mogą wyglądać zatem tak:</p>
<pre class="brush:xml">&lt;add&gt;
   &lt;doc&gt;
      &lt;field name="id"&gt;1&lt;/field&gt;
      &lt;field name="make"&gt;Audi&lt;/field&gt;
      &lt;field name="model"&gt;80&lt;/field&gt;
      &lt;field name="year"&gt;2008&lt;/field&gt;
      &lt;field name="price"&gt;9774&lt;/field&gt;
      &lt;field name="engine_size"&gt;2000&lt;/field&gt;
      &lt;field name="mileage"&gt;92467&lt;/field&gt;
      &lt;field name="colour"&gt;green&lt;/field&gt;
      &lt;field name="damaged"&gt;false&lt;/field&gt;
      &lt;field name="city"&gt;Koszalin&lt;/field&gt;
      &lt;field name="loc"&gt;54.12,16.11&lt;/field&gt;
   &lt;/doc&gt;
   &lt;doc&gt;
      &lt;field name="id"&gt;2&lt;/field&gt;
      &lt;field name="make"&gt;Audi&lt;/field&gt;
      &lt;field name="model"&gt;A8&lt;/field&gt;
      &lt;field name="year"&gt;2009&lt;/field&gt;
      &lt;field name="price"&gt;9078&lt;/field&gt;
      &lt;field name="engine_size"&gt;1000&lt;/field&gt;
      &lt;field name="mileage"&gt;31369&lt;/field&gt;
      &lt;field name="colour"&gt;black&lt;/field&gt;
      &lt;field name="damaged"&gt;false&lt;/field&gt;
      &lt;field name="city"&gt;Białystok&lt;/field&gt;
      &lt;field name="loc"&gt;53.08,23.09&lt;/field&gt;
   &lt;/doc&gt;
   &lt;doc&gt;
      &lt;field name="id"&gt;3&lt;/field&gt;
      &lt;field name="make"&gt;Audi&lt;/field&gt;
      &lt;field name="model"&gt;TT&lt;/field&gt;
      &lt;field name="year"&gt;1997&lt;/field&gt;
      &lt;field name="price"&gt;1109&lt;/field&gt;
      &lt;field name="engine_size"&gt;1299&lt;/field&gt;
      &lt;field name="mileage"&gt;116987&lt;/field&gt;
      &lt;field name="colour"&gt;silver&lt;/field&gt;
      &lt;field name="damaged"&gt;true&lt;/field&gt;
      &lt;field name="city"&gt;Szczecin&lt;/field&gt;
      &lt;field name="loc"&gt;53.25,14.35&lt;/field&gt;
   &lt;/doc&gt;
   &lt;doc&gt;
      &lt;field name="id"&gt;4&lt;/field&gt;
      &lt;field name="make"&gt;BMW&lt;/field&gt;
      &lt;field name="model"&gt;Seria 7&lt;/field&gt;
      &lt;field name="year"&gt;2007&lt;/field&gt;
      &lt;field name="price"&gt;140000&lt;/field&gt;
      &lt;field name="engine_size"&gt;3000&lt;/field&gt;
      &lt;field name="mileage"&gt;418000&lt;/field&gt;
      &lt;field name="colour"&gt;green&lt;/field&gt;
      &lt;field name="damaged"&gt;false&lt;/field&gt;
      &lt;field name="city"&gt;Gdańsk&lt;/field&gt;
      &lt;field name="loc"&gt;54.21,18.40&lt;/field&gt;
   &lt;/doc&gt;
   &lt;doc&gt;
      &lt;field name="id"&gt;5&lt;/field&gt;
      &lt;field name="make"&gt;Chevrolet&lt;/field&gt;
      &lt;field name="model"&gt;TrailBlazer&lt;/field&gt;
      &lt;field name="year"&gt;2007&lt;/field&gt;
      &lt;field name="price"&gt;140000&lt;/field&gt;
      &lt;field name="engine_size"&gt;3000&lt;/field&gt;
      &lt;field name="mileage"&gt;418000&lt;/field&gt;
      &lt;field name="colour"&gt;green&lt;/field&gt;
      &lt;field name="damaged"&gt;false&lt;/field&gt;
      &lt;field name="city"&gt;Warszawa&lt;/field&gt;
      &lt;field name="loc"&gt;52.15,21.00&lt;/field&gt;
   &lt;/doc&gt;
&lt;/add&gt;</pre>
<h2>Tworzymy zapytania</h2>
<p lang="pl-PL">Dane lokalizacyjne mamy w indeksie, zatem zostało nam już tylko złożyć odpowiednie zapytania, które zrealizują nasze nowe funkcjonalności. Załóżmy, że będziemy wyszukiwać ogłoszenia znajdując się w mieście Białystok, które jest położone w odległości ok. 200 km od miasta Warszawa, ok. 400 km od miasta Gdańsk, ok. 550 km od miasta Koszalin oraz ok. 650 km od miasta Szczecin.</p>
<p lang="pl-PL">W celu realizacji punktu 1 z analizy wymagań, dodajemy do żądania nowe zapytanie filtrujące:</p>
<p lang="pl-PL">
<pre class="brush:xml">...&amp;fq={!geofilt sfield=loc}&amp;pt=53.08,23.09&amp;d=50</pre>
<p lang="pl-PL">gdzie:</p>
<ul>
<li><em>sfield</em> &#8211; nazwa pola, do którego wprowadzaliśmy nasze dane lokalizacyjne.</li>
<li><em>pt</em> &#8211; współrzędne punktu startowego, w naszym wypadku są to współrzędne miasta Białystok.</li>
<li><em>d</em> &#8211; dystans o jaki chcemy zawęzić wyniki wyszukiwania. Podstawiając kolejno wartości 50,100,200,500,1000 możemy zrealizować nasze wymagania.</li>
</ul>
<p lang="pl-PL">Przykład:</p>
<ol>
<li>Zapytanie:
<pre class="brush:xml">q=*:*&amp;fq={!geofilt sfield=loc}&amp;pt=53.08,23.09&amp;d=200</pre>
</li>
<li>Wyniki wyszukiwania:</li>
<pre class="brush:xml">&lt;result name="response" numFound="2" start="0"&gt;
   &lt;doc&gt;
      &lt;str name="city"&gt;Białystok&lt;/str&gt;
      &lt;str name="colour"&gt;black&lt;/str&gt;
      &lt;bool name="damaged"&gt;false&lt;/bool&gt;
      &lt;int name="engine_size"&gt;1000&lt;/int&gt;
      &lt;str name="id"&gt;2&lt;/str&gt;
      &lt;str name="make"&gt;Audi&lt;/str&gt;
      &lt;int name="mileage"&gt;31369&lt;/int&gt;
      &lt;str name="model"&gt;A8&lt;/str&gt;
      &lt;float name="price"&gt;9078.0&lt;/float&gt;
      &lt;int name="year"&gt;2009&lt;/int&gt;
   &lt;/doc&gt;
   &lt;doc&gt;
      &lt;str name="city"&gt;Warszawa&lt;/str&gt;
      &lt;str name="colour"&gt;green&lt;/str&gt;
      &lt;bool name="damaged"&gt;false&lt;/bool&gt;
      &lt;int name="engine_size"&gt;3000&lt;/int&gt;
      &lt;str name="id"&gt;5&lt;/str&gt;
      &lt;str name="make"&gt;Chevrolet &lt;/str&gt;
      &lt;int name="mileage"&gt;418000&lt;/int&gt;
      &lt;str name="model"&gt;TrailBlazer&lt;/str&gt;
      &lt;float name="price"&gt;140000.0&lt;/float&gt;
      &lt;int name="year"&gt;2007&lt;/int&gt;
   &lt;/doc&gt;
&lt;/result&gt;</pre>
</ol>
<p lang="pl-PL">Świetnie, w wynikach nie mamy ogłoszeń z miast Koszalin, Gdańsk oraz Szczecin, gdyż te miasta leżą w odległości ponad 200 km od miasta Białystok.</p>
<p lang="pl-PL">W celu realizacji punktu 2 z analizy wymagań, wykorzystamy możliwość sortowania wyników wyszukiwania z użyciem funkcji geodist. Tworzymy następujące zapytanie:</p>
<p lang="pl-PL">
<pre class="brush:xml">...&amp;sfield=loc&amp;pt=53.08,23.09&amp;sort=geodist()+desc</pre>
<p lang="pl-PL">Przykład sortowania wyników wyszukiwania po odległości, rozpoczynając od miasta Białystok:</p>
<ol>
<li>Zapytanie:
<pre class="brush:xml">q=*:*&amp;sfield=loc&amp;pt=53.08,23.09&amp;sort=geodist()+asc</pre>
</li>
<li>Wyniki wyszukiwania:</li>
<pre class="brush:xml">&lt;result name="response" numFound="5" start="0"&gt;
   &lt;doc&gt;
      &lt;str name="city"&gt;Białystok&lt;/str&gt;
      &lt;str name="colour"&gt;black&lt;/str&gt;
      &lt;bool name="damaged"&gt;false&lt;/bool&gt;
      &lt;int name="engine_size"&gt;1000&lt;/int&gt;
      &lt;str name="id"&gt;2&lt;/str&gt;
      &lt;str name="make"&gt;Audi&lt;/str&gt;
      &lt;int name="mileage"&gt;31369&lt;/int&gt;
      &lt;str name="model"&gt;A8&lt;/str&gt;
      &lt;float name="price"&gt;9078.0&lt;/float&gt;
      &lt;int name="year"&gt;2009&lt;/int&gt;
   &lt;/doc&gt;
   &lt;doc&gt;
      &lt;str name="city"&gt;Warszawa&lt;/str&gt;
      &lt;str name="colour"&gt;green&lt;/str&gt;
      &lt;bool name="damaged"&gt;false&lt;/bool&gt;
      &lt;int name="engine_size"&gt;3000&lt;/int&gt;
      &lt;str name="id"&gt;5&lt;/str&gt;
      &lt;str name="make"&gt;Chevrolet &lt;/str&gt;
      &lt;int name="mileage"&gt;418000&lt;/int&gt;
      &lt;str name="model"&gt;TrailBlazer&lt;/str&gt;
      &lt;float name="price"&gt;140000.0&lt;/float&gt;
      &lt;int name="year"&gt;2007&lt;/int&gt;
   &lt;/doc&gt;
   &lt;doc&gt;
      &lt;str name="city"&gt;Gdańsk&lt;/str&gt;
      &lt;str name="colour"&gt;green&lt;/str&gt;
      &lt;bool name="damaged"&gt;false&lt;/bool&gt;
      &lt;int name="engine_size"&gt;3000&lt;/int&gt;
      &lt;str name="id"&gt;4&lt;/str&gt;
      &lt;str name="make"&gt;BMW&lt;/str&gt;
      &lt;int name="mileage"&gt;418000&lt;/int&gt;
      &lt;str name="model"&gt;Seria 7&lt;/str&gt;
      &lt;float name="price"&gt;140000.0&lt;/float&gt;
      &lt;int name="year"&gt;2007&lt;/int&gt;
   &lt;/doc&gt;
   &lt;doc&gt;
      &lt;str name="city"&gt;Koszalin&lt;/str&gt;
      &lt;str name="colour"&gt;green&lt;/str&gt;
      &lt;bool name="damaged"&gt;false&lt;/bool&gt;
      &lt;int name="engine_size"&gt;2000&lt;/int&gt;
      &lt;str name="id"&gt;1&lt;/str&gt;
      &lt;str name="make"&gt;Audi&lt;/str&gt;
      &lt;int name="mileage"&gt;92467&lt;/int&gt;
      &lt;str name="model"&gt;80&lt;/str&gt;
      &lt;float name="price"&gt;9774.0&lt;/float&gt;
      &lt;int name="year"&gt;2008&lt;/int&gt;
   &lt;/doc&gt;
   &lt;doc&gt;
      &lt;str name="city"&gt;Szczecin&lt;/str&gt;
      &lt;str name="colour"&gt;silver&lt;/str&gt;
      &lt;bool name="damaged"&gt;true&lt;/bool&gt;
      &lt;int name="engine_size"&gt;1299&lt;/int&gt;
      &lt;str name="id"&gt;3&lt;/str&gt;
      &lt;str name="make"&gt;Audi&lt;/str&gt;
      &lt;int name="mileage"&gt;116987&lt;/int&gt;
      &lt;str name="model"&gt;TT&lt;/str&gt;
      &lt;float name="price"&gt;1109.0&lt;/float&gt;
      &lt;int name="year"&gt;1997&lt;/int&gt;
   &lt;/doc&gt;
&lt;/result&gt;</pre>
</ol>
<p lang="pl-PL">Zgadza się! Wymagania zostały zrealizowane.</p>
<h2>Podsumowanie</h2>
<p lang="pl-PL">Po raz kolejny udało nam się sprostać oczekiwaniom naszych klientów. Tym razem dodaliśmy funkcjonalności związane z lokalizacją geograficzną aut, które pozwolą użytkownikom na zawężanie oraz sortowanie wyników wyszukiwania wykorzystując odległości geograficzne. Pełen sukces.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://solr.pl/2011/03/14/aplikacja-sprzedaz-samochodow-spatial-search-czyli-wprowadzenie-danych-lokalizacyjnych-cz-3/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Aplikacja &#8222;sprzedaż samochodów” – WordDelimiterFilter i PatternReplaceFilter, czyli na ratunek jakości wyników (cz. 2)</title>
		<link>https://solr.pl/2011/02/14/aplikacja-sprzedaz-samochodow-worddelimiterfilter-i-patternreplacefilter-czyli-na-ratunek-jakosci-wynikow-cz-2/</link>
					<comments>https://solr.pl/2011/02/14/aplikacja-sprzedaz-samochodow-worddelimiterfilter-i-patternreplacefilter-czyli-na-ratunek-jakosci-wynikow-cz-2/#respond</comments>
		
		<dc:creator><![CDATA[Rafał Kuć]]></dc:creator>
		<pubDate>Mon, 14 Feb 2011 08:03:28 +0000</pubDate>
				<category><![CDATA[Solr]]></category>
		<category><![CDATA[howto]]></category>
		<category><![CDATA[schema]]></category>
		<guid isPermaLink="false">http://sematext.solr.pl/?p=182</guid>

					<description><![CDATA[W pierwszej części naszego cyklu stworzyliśmy pewną standardową strukturę indeksu, odpowiednio konfigurując plik schema.xml. Przy takiej konfiguracji, na pierwsze skargi klientów, dotyczących działania silnika wyszukiwawczego nie trzeba było długo czekać. Dlaczego wpisując w kryteria wyszukiwania frazę &#8222;audi a&#8221; nie otrzymuję]]></description>
										<content:encoded><![CDATA[<p lang="pl-PL">W <a href="http://solr.pl/2011/01/31/aplikacja-sprzedaz-samochodow-projektowanie-schema-xml-dla-naszych-potrzeb-cz-1/" target="_blank" rel="noopener noreferrer">pierwszej części</a> naszego cyklu stworzyliśmy pewną standardową strukturę indeksu, odpowiednio konfigurując plik schema.xml. Przy takiej konfiguracji, na pierwsze skargi klientów, dotyczących działania silnika wyszukiwawczego nie trzeba było długo czekać. Dlaczego wpisując w kryteria wyszukiwania frazę &#8222;audi a&#8221; nie otrzymuję ofert związanych z autami &#8222;Audi A6&#8221; lub &#8222;Audi A8&#8221; ? Wpisałem &#8222;Honda crv&#8221; &#8211; 0 wyników. &#8222;Suzuki maruti&#8221; &#8211; też nic. Czy takich ofert nie ma w bazie z ogłoszeniami ? Otóż są, ale konfiguracja typu pola, po którym wyszukujemy (pole &#8222;content&#8221; &#8211; typ &#8222;text&#8221;) uniemożliwia w obecnym stanie znalezienie tych ogłoszeń przy zastosowaniu powyższych zapytań. Na pomoc rusza nam chyba najbardziej popularny filtr &#8211; WordDelimiterFilter, oraz PatternReplaceFilter, których odpowiednia konfiguracja pozwoli sprostać naszym potrzebom.</p>
<p><span id="more-182"></span></p>
<h2>Analiza wymagań</h2>
<p lang="pl-PL">W celu dokonania analizy danych, które wchodzą w skład pola, po którym wyszukujemy, weźmy następującą próbkę, na której oprzemy naszą konfigurację:</p>
<ul>
<li><em>Marka</em>: Audi<br />
<em>Modele</em>: 80, 90, A6, A8, TT</li>
</ul>
<ul>
<li><em>Marka</em>: BMW<br />
<em>Modele</em>: M3, M5, Seria 7, Seria 8, X1, X3</li>
</ul>
<ul>
<li><em>Marka</em>: Chevrolet<br />
<em>Modele</em>: TrailBlazer</li>
</ul>
<ul>
<li><em>Marka</em>: Citroen<br />
<em>Modele</em>: C-Crosser, C3 Pluriel, C4 Picasso</li>
</ul>
<ul>
<li><em>Marka</em>: Ford<br />
<em>Modele</em>: C-MAX, S-MAX</li>
</ul>
<ul>
<li><em>Marka</em>: Honda<br />
<em>Modele</em>: Accord, CR-V, FR-V, HR-V</li>
</ul>
<ul>
<li><em>Marka</em>: Kia<br />
<em>Modele</em>: Cee&#8217;d</li>
</ul>
<ul>
<li><em>Marka</em>: Suzuki<br />
<em>Modele</em>: Alto/Maruti</li>
</ul>
<p lang="pl-PL">Nazwy marek są prostymi słowami, z którymi aktualna konfiguracja (WhitespaceTokenizer + LowerCaseFilter) poradzi sobie bez problemu. Problem pojawia się przy modelach aut, które zawierają dodatkowe znaki oraz separatory, które często ignorujemy przy wyszukiwaniu. Pogrupujmy sobie powyższą próbkę ze względu na charakterystykę danych:</p>
<ol>
<li>Nazwy modeli, które nie wymagają dodatkowych filtrów i obecna konfiguracja jest wystarczająca &#8211; 80, 90, TT, Seria 7, Seria 8, Accord</li>
<li>Nazwy modeli, których nazwy składają się z cyfr i liter, których to rozdzielenie jest pożądane &#8211; A6, A8, M3, M5, X1, X3, C3 Pluriel, C4 Picasso. Chcielibyśmy móc wyszukiwać powyższe modele wpisując tylko literę lub tylko cyfrę, ale również wpisując całą nazwę modelu.</li>
<li>Modele, które mają zmianę wielkości znaków w nazwie &#8211; TrailBlazer. Chcielibyśmy znaleźć taki model wpisując &#8222;trail&#8221;, &#8222;blazer&#8221;, &#8222;trailBlazer&#8221;, &#8222;trailblazer&#8221;.</li>
<li>Nazwy modeli, które zawierają separatory, które chcemy ignorować (wpisując nazwę modelu jako pełny wyraz &#8211; uwzględniając separator lub nie &#8211; oraz po częściach nazwy modelu, które taki separator generuje) &#8211; C-Crosser, C-MAX, S-MAX, CR-V, FR-V, HR-V, Alto/Maruti.<br />
Przykład: chcielibyśmy znaleźć ogłoszenie z modelem &#8222;C-MAX&#8221; wpisująć frazy &#8222;c&#8221;, &#8222;max&#8221;, &#8222;c-max&#8221; &#8222;cmax&#8221;.</li>
<li>Celowo w punkcie 4 pominąłem model &#8222;Cee&#8217;d&#8221;. Ten model przy wyszukiwaniu chcielibyśmy traktować trochę inaczej, a mianowicie uniemożliwić znalezienie ogłoszenia przy wpisaniu &#8222;cee&#8221; lub &#8222;d&#8221;. Traktujemy nazwę &#8222;Cee&#8217;d&#8221; tylko i wyłącznie jako jeden wyraz, czyli realizujemy wyszukiwanie tylko dla przypadków &#8222;cee&#8217;d&#8221; oraz &#8222;ceed&#8221;.</li>
</ol>
<h2>Konfiguracja WordDelimiterFilter</h2>
<p lang="pl-PL">Na podstawie opisanej charakterystyki dobierzmy takie wartości atrybutów filtra WordDelimiterFilter, aby wszystkie powyższe wymagania zostały spełnione:</p>
<ol>
<li>WordDelimiterFilter jest w tym wypadku zbędny, do realizacji wymagań z pkt 1 wystarczy WhitespaceTokenizer + LowerCaseFilter.</li>
<li> W celu realizacji wymagań z pkt 2 należy zadbać o odpowiednie ustawienie następujących atrybutów:
<ul>
<li> <em>generateWordParts=&#8221;1&#8243;</em> &#8211; wartość musi być ustawiona na &#8222;1&#8221;, jeżeli chcemy mieć możliwość generowania części słów</li>
<li><em>generateNumberParts=&#8221;1&#8243;</em> &#8211; wartość musi być ustawiona na &#8222;1&#8221;, jeżeli chcemy mieć możliwość generowania części liczbowych</li>
<li><em>splitOnNumerics=&#8221;1&#8243;</em> &#8211; wartość musi być ustawiona na &#8222;1&#8221;, jeżeli chcemy mieć możliwość rozdzielania literek od liczb</li>
</ul>
</li>
<li> W celu realizacji wymagań z pkt 3, musimy ustawić następujące atrybuty:
<ul>
<li> <em>generateWordParts=&#8221;1&#8243;</em></li>
<li><em>splitOnCaseChange=&#8221;1&#8243;</em> &#8211; wartość musi być ustawiona na &#8222;1&#8221;, jeżeli chcemy mieć możliwość generowania części słów przy przejściu z dużej litery na małą i odwrotnie</li>
</ul>
</li>
<li> W celu realizacji wymagań z pkt 4, ustawiamy następujące atrybuty:
<ul>
<li> <em>generateWordParts=&#8221;1&#8243;</em></li>
<li><em>catenateWords=&#8221;1&#8243; </em>&#8211;  wartość musi być ustawiona na &#8222;1&#8221;, abyśmy mogli dodatkowo ignorować separatory, poprzez łączenie wyrazów, które są takim separatorem rozdzielone</li>
</ul>
</li>
</ol>
<p lang="pl-PL">Zatem konfiguracja naszego filtra wygląda następująco:</p>
<pre class="brush:xml">&lt;filter class="solr.WordDelimiterFilterFactory"
 splitOnNumerics="1"
 splitOnNumerics="1"
 generateWordParts="1"
 generateNumberParts="1"
 catenateWords="1"
/&gt;</pre>
<p lang="pl-PL">Dodatkowo okazuje się, że domyślna wartość atrybutów &#8222;splitOnNumerics&#8221; oraz &#8222;splitOnNumerics&#8221; to właśnie &#8222;1&#8221;. Pozostałe atrybuty, których nie wykorzystujemy (poza &#8222;stemEnglishPossessive&#8221;), mają domyślną wartość na &#8222;0&#8221;. Konfiguracja naszego filtra zatem upraszcza się do następującej postaci:</p>
<pre class="brush:xml">&lt;filter class="solr.WordDelimiterFilterFactory"
 generateWordParts="1"
 generateNumberParts="1"
 catenateWords="1"
 stemEnglishPossessive="0"
/&gt;</pre>
<p lang="pl-PL">Co zrobić z punktem nr. 5 naszej charakterystyki danych? Ustaliliśmy, że nie chcielibyśmy dla tego przypadku traktować znaku &#8221; &#8217; &#8221; jako separatora, a tak właśnie by się stało przy powyższej konfiguracji. Może zatem użyć w filtrze opcji, która zachowa to słowo w stanie niezmienionym, czyli wykorzystać atrybut protected=&#8221;protwords.txt&#8221; i dodać słowo &#8222;Cee&#8217;d&#8221; do pliku protwords.txt? No tak, ale co z faktem, że chcemy móc wyszukać taki dokument, przy wpisaniu frazy &#8222;ceed&#8221; ? Najlepiej by było zająć się tym przypadkiem w oddzielnym filtrze, a do filtra WordDelimiterFilter wprowadzić wartość, której ten filtr nie będzie musiał już analizować.</p>
<h2>Konfiguracja PatternReplaceFilter</h2>
<p lang="pl-PL">Filtr PatternReplaceFilter zastosujemy przed filtrem WordDelimiterFilter. Za pomocą PatternReplaceFilter będziemy mogli po prostu wyciąć znak &#8222;'&#8221; z nazwy tego specyficznego modelu, zastępując go pustym znakiem. W ten sposób, do filtra WordDelimiterFilter trafi nam nazwa &#8222;Ceed&#8221;, która przy obecnej konfiguracji nie zastosuje na takiej wartości żadnej modyfikacji. Filtry będą miały taką samą konfigurację przy indeksowaniu jak i przy wyszukiwaniu, zatem użytkownik będzie w stanie znaleźć ogłoszenie z marką &#8222;Cee&#8217;d&#8221; przy wpisaniu frazy &#8222;cee&#8217;d&#8221; jak i &#8222;ceed&#8221;:</p>
<pre>&lt;filter class="solr.PatternReplaceFilterFactory" pattern="'" replacement="" replace="all" /&gt;</pre>
<h2>Wizualizacja działania nowej konfiguracji typu pola &#8222;text&#8221;</h2>
<p lang="pl-PL">Podsumowując, nasz typ &#8222;text&#8221; zmienił się następująco:</p>
<pre class="brush:xml">&lt;fieldType name="text" positionIncrementGap="100"&gt;
 &lt;analyzer&gt;
  &lt;tokenizer class="solr.WhitespaceTokenizerFactory"/&gt;
   &lt;filter class="solr.PatternReplaceFilterFactory" pattern="'" replacement="" replace="all" /&gt;
   &lt;filter class="solr.WordDelimiterFilterFactory"
    generateWordParts="1"
    generateNumberParts="1"
    catenateWords="1"
    stemEnglishPossessive="0"
  /&gt;
  &lt;filter class="solr.LowerCaseFilterFactory"/&gt;
 &lt;/analyzer&gt;
&lt;/fieldType&gt;</pre>
<p lang="pl-PL">Wykorzystajmy panel administracyjny solr, aby zobaczyć na przykładzie każdego z punktów, czy konfigurując nasz typ tak jak powyżej, otrzymamy to, czego oczekujemy:</p>
<p style="text-align: center;"><a href="http://solr.pl/wp-content/uploads/2011/02/11.jpg"><img fetchpriority="high" decoding="async" class="size-full wp-image-840 aligncenter" src="http://solr.pl/wp-content/uploads/2011/02/11.jpg" alt="" width="725" height="70"></a></p>
<p style="text-align: center;"><a href="http://solr.pl/wp-content/uploads/2011/02/2.jpg"><img decoding="async" class="size-full wp-image-841 aligncenter" src="http://solr.pl/wp-content/uploads/2011/02/2.jpg" alt="" width="694" height="740"></a></p>
<ol>
<li>(Model: &#8222;80&#8221;) Tak jak oczekiwaliśmy, wprowadzone filtry nie mają wpływu na dane charakterystyczne dla punktu 1.</li>
<li>(Model: &#8222;A8&#8221;) WordDelimiterFilter rozdzielił nam liczbę od wyrazu.</li>
<li>(Model: &#8222;TrailBlazer&#8221;)WordDelimiterFilter rozdzielił nam &#8222;trail&#8221; od &#8222;Blazer&#8221;. Dodatkowo mamy możliwość wyszukiwania po &#8222;trailblazer&#8221;. Super.</li>
<li>(Model: &#8222;CR-V&#8221;) WordDelimiterFilter rozdzielił nam wyraz po separatorze (w tym wypadku &#8222;-&#8222;). Dodatkowo mamy możliwość wyszukiwania po nazwie modelu nie uwzględniając separatora (&#8222;crv&#8221;).</li>
<li>(Model: &#8222;Cee&#8217;d&#8221;) PatternReplaceFilter zamienił nam &#8222;Cee&#8217;d&#8221; na &#8222;Ceed&#8221; a WordDelimiterFilter zachował tę wartość. O to nam chodziło.</li>
</ol>
<h2>Podsumowanie</h2>
<p lang="pl-PL">W drugiej części naszego cyklu użyliśmy dwóch nowych filtrów w celu poprawy jakości wyników wyszukiwania. Na przykładzie naszych &#8222;samochodowych&#8221; danych omówiliśmy użycie WordDelimiterFilter oraz PatternReplaceFilter. Poprawka wprowadzona, klient usatysfakcjonowany &#8230; ale na jak długo ?</p>
]]></content:encoded>
					
					<wfw:commentRss>https://solr.pl/2011/02/14/aplikacja-sprzedaz-samochodow-worddelimiterfilter-i-patternreplacefilter-czyli-na-ratunek-jakosci-wynikow-cz-2/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Aplikacja &#8222;sprzedaż samochodów&#8221; &#8211; projektowanie schema.xml dla naszych potrzeb (cz. 1)</title>
		<link>https://solr.pl/2011/01/31/aplikacja-sprzedaz-samochodow-projektowanie-schema-xml-dla-naszych-potrzeb-cz-1/</link>
					<comments>https://solr.pl/2011/01/31/aplikacja-sprzedaz-samochodow-projektowanie-schema-xml-dla-naszych-potrzeb-cz-1/#respond</comments>
		
		<dc:creator><![CDATA[Rafał Andrzejewski]]></dc:creator>
		<pubDate>Mon, 31 Jan 2011 08:01:46 +0000</pubDate>
				<category><![CDATA[Solr]]></category>
		<category><![CDATA[howto]]></category>
		<category><![CDATA[schema]]></category>
		<category><![CDATA[solr]]></category>
		<guid isPermaLink="false">http://sematext.solr.pl/?p=178</guid>

					<description><![CDATA[Podstawowym plikiem konfiguracyjnym solr, który jest niejako łącznikiem pomiędzy tym czego potrzebujemy, a tym co rozumie solr, jest plik schema.xml. Dobre zaprojektowanie schema.xml jest głównym czynnikiem warunkującym poprawne funkcjonowanie wyszukiwarki, która będzie w stanie zrealizować wszystkie wymagania, jakie przed nią]]></description>
										<content:encoded><![CDATA[<p>Podstawowym plikiem konfiguracyjnym solr, który jest niejako łącznikiem pomiędzy tym czego potrzebujemy, a tym co rozumie solr, jest plik schema.xml. Dobre zaprojektowanie schema.xml jest głównym czynnikiem warunkującym poprawne funkcjonowanie wyszukiwarki, która będzie w stanie zrealizować wszystkie wymagania, jakie przed nią stawiamy. Zacznijmy zatem kolejny cykl artykułów, poświęconych projektowaniu pliku schema.xml jak i również wszystkich składników wchodzących w skład zdefiniowanych przez nas typów pól.</p>
<p><span id="more-178"></span></p>
<h2>Analiza wymagań</h2>
<p lang="pl-PL">Wyobraźmy sobie, że chcemy wykorzystać silnik solr w celu dodania wyszukiwarki ogłoszeń samochodowych do naszego serwisu. Serwis nasz jest w tym momencie dosyć prymitywny i przetrzymuje podstawowe informacje opisujące właściwości każdego wystawionego na sprzedaż samochodu:</p>
<ul>
<li>marka</li>
<li>model</li>
<li>rok produkcji</li>
<li>cena</li>
<li>pojemność</li>
<li>przebieg</li>
<li>kolor</li>
<li>czy uszkodzony</li>
</ul>
<p lang="pl-PL">Chcielibyśmy w tym momencie zaprojektować najprostszy plik konfiguracyjny, który pomoże odpowiednio zaindeksować dane z powyższych pól. Zanim jednak przystąpimy do rzeźbienia pliku schema.xml, odpowiedzmy sobie na siedem podstawowych pytań, dotyczących każdego z tych pól:</p>
<h3>1. Jaki typ ?</h3>
<p>Ustalamy typ każdego pola:</p>
<ul>
<li>marka &#8211; pole tekstowe</li>
<li>model &#8211; pole tekstowe</li>
<li>rok produkcji &#8211; pole liczbowe</li>
<li>cena &#8211; pole liczbowe, zmiennoprzecinkowe</li>
<li>pojemność &#8211; pole liczbowe</li>
<li>przebieg &#8211; pole liczbowe</li>
<li>kolor &#8211; pole tekstowe</li>
<li>czy uszkodzony &#8211; pole logiczne</li>
</ul>
<h4>Co nam to mówi ?</h4>
<p lang="pl-PL">Będziemy potrzebowali definicji typów: string, boolean, int, float.</p>
<h3>2. Czy po polu ma się odbywać wyszukiwanie ?</h3>
<p lang="pl-PL">Ustalamy, z których pól będą wykorzystywane informacje, w celu znalezienia odpowiednich ogłoszeń samochodowych. W naszym serwisie będą to 3 pola: marka, model oraz rok produkcji.</p>
<h4>Co nam to mówi ?</h4>
<p>Pewnie będziemy potrzebowali kolejnego typu pola, który będzie poddawany działaniu różnych filtrów, zwiększających nasze szanse znalezienia interesującego nas dokumentu. Stworzymy sobie dodatkowe pole tego typu, po którym będziemy wyszukiwać i wrzucimy tam dane z wszystkich 3 powyższych pól.</p>
<h3>3. Czy sortowalne lub grupowalne ?</h3>
<p lang="pl-PL">Serwis nasz przewiduje sortowanie wyników wyszukiwania po polach: model, rok produkcji, cena oraz przebieg. Chcielibyśmy również móc grupować wyniki wyszukiwania (faceting) po polach marka, model, rok produkcji oraz kolor.</p>
<h4>Co nam to mówi ?</h4>
<p lang="pl-PL">Pola tekstowe, po których sortujemy lub grupujemy nie powinny być poddawane działaniu filtrów, które mogą nam rozdzielić na tokeny wartości w tych polach. Zależy nam jednak na tym, aby wszystkie wartości były zapisane małymi literami, tak aby wielkość liter nie wpływała na sortowanie czy też grupowanie. Będzie trzeba stworzyć nowy typ pola, który nam to umożliwi.</p>
<h3>4. Czy wykorzystywane przy filtrowaniu ?</h3>
<p lang="pl-PL">Na stronie wyszukiwania ogłoszeń chcemy mieć możliwość zawężenia wyników wyszukiwania, poprzez ustawianie zakresów na polach: rok produkcji, cena, pojemność oraz przebieg.</p>
<h4>Co nam to mówi ?</h4>
<p lang="pl-PL">Dobierzmy zatem takie typy dla tych pól, aby filtrowanie po zakresach było jak najbardziej wydajne.</p>
<h3>5. Czy zostały mi pola, które nie zostały wymienione w punktach 2, 3 lub 4 ?</h3>
<p lang="pl-PL">Okazuje się, że na polu &#8222;czy wymagane&#8221; nie będziemy przeprowadzać żadnych &#8222;operacji&#8221;.</p>
<h4>Co nam to mówi ?</h4>
<p lang="pl-PL">Ustawiamy atrybut &#8222;indexed&#8221; dla takiego pola na wartość false.</p>
<h3>6.Czy wymagane ?</h3>
<p lang="pl-PL">W naszym serwisie zakładamy, że polami wymaganymi dla każdego ogłoszenia będą pola marka, model oraz rok produkcji. Nie chcemy mieć dokumentów, które nie mają zdefiniowanych co najmniej tych trzech pól.</p>
<h4>Co nam to mówi ?</h4>
<p lang="pl-PL">Przy definiowaniu tych pól musimy pamiętać o ustawieniu wartości atrybutu &#8222;required&#8221; na true.</p>
<h3>7. Czy wartości pól mają być pobierane z indeksu w oryginalnym stanie?</h3>
<p lang="pl-PL">Informację ze wszystkich pól chcielibyśmy wyciągnąć bezpośrednio z wyników wyszukiwania i zaprezentować klientowi serwisu.</p>
<h4>Co nam to mówi ?</h4>
<p lang="pl-PL">Przy definiowaniu tych pól musimy pamiętać o ustawieniu wartości atrybutu &#8222;stored&#8221; na true.</p>
<h2>Dodajmy definicje typów pól</h2>
<p lang="pl-PL">Odpowiedzieliśmy już sobie na nasze niezbędne pytanie, wyciągnęliśmy wnioski, więc czas wprowadzić je w życie. Dodajmy do schemy typy pól:</p>
<p lang="pl-PL">Dodajemy zwykły typ string, który nie jest poddawany żadnej analizie, przyda się np. jako typ dla pola reprezentującego unikalny identyfikator dokumentu.</p>
<pre class="brush:xml">&lt;fieldType name="string" sortMissingLast="true" omitNorms="true"/&gt;</pre>
<p lang="pl-PL">Dodajemy typ boolean.</p>
<pre class="brush:xml">&lt;fieldType name="boolean" sortMissingLast="true" omitNorms="true"/&gt;</pre>
<p lang="pl-PL">Dodajemy typy dla pól liczbowych. Pamiętamy, że zależy nam na typach, które zagwarantują nam szybsze wykonywanie zapytań po zakresach. Skorzystajmy zatem z typów tint oraz tfloat:</p>
<pre class="brush:xml">&lt;fieldType name="tint" precisionStep="8" omitNorms="true" positionIncrementGap="0"/&gt;
&lt;fieldType name="tfloat" precisionStep="8" omitNorms="true" positionIncrementGap="0"/&gt;</pre>
<p lang="pl-PL">Stwórzmy teraz typ tekstowy, który będzie wykorzystywany przez pole zbiorcze po którym będziemy wyszukiwać. Załóżmy prosty typ, który rozdzieli nam wszystkie tokeny po białych znakach, po czym zamieni wszystkie litery na małe.</p>
<pre class="brush:xml">&lt;fieldType name="text" positionIncrementGap="100"&gt;
  &lt;analyzer&gt;
    &lt;tokenizer class="solr.WhitespaceTokenizerFactory"/&gt;
    &lt;filter class="solr.LowerCaseFilterFactory"/&gt;
  &lt;/analyzer&gt;
&lt;/fieldType&gt;</pre>
<p lang="pl-PL">Potrzebujemy jeszcze typu dla pól, które będą sortowalne/grupowalne:</p>
<pre class="brush:xml">&lt;fieldType name="lowercase" positionIncrementGap="100"&gt;
  &lt;analyzer&gt;
    &lt;tokenizer class="solr.KeywordTokenizerFactory"/&gt;
    &lt;filter class="solr.LowerCaseFilterFactory" /&gt;
    &lt;filter class="solr.TrimFilterFactory" /&gt;
  &lt;/analyzer&gt;
&lt;/fieldType&gt;</pre>
<p lang="pl-PL">KeywordTokenizer tak naprawdę nie tokenizuje wartości którą dostaje na wejściu, czyli niezmieniona wartość zostanie poddana działaniu filtra LowerCaseFilterFactory po czym filtr TrimFilterFactory zadba o to, aby zostały usunięte wszelkie białe znaki, znajdujące się na początku lub na końcu wartości.</p>
<h2>Dodajmy definicje pól</h2>
<p>Identyfikator dokumentu:
</p>
<pre class="brush:xml">&lt;field name="id" type="string" indexed="true" stored="true" required="true" /&gt;</pre>
<p>Marka oraz model:
</p>
<pre class="brush:xml">&lt;field name="make" type="text" indexed="false" stored="true" required="true" /&gt;
&lt;field name="model" type="text" indexed="false" stored="true" required="true" /&gt;</pre>
<p>Nasuwa się pytanie, dlaczego atrybuty indexed dla pól marka oraz model są ustawione na false? Przecież są to pola, które wykorzystywane są przy wyszukiwaniu, sortowaniu i grupowaniu. Zgadza się. Jednakże w celach wyszukiwania przekopiujemy wartości z tych pól do pola zbiorczego, a w celach sortowania/grupowania przekopiujemy wartości z tych pól do pól o typie &#8222;lowercase&#8221;.<br />
Pola, do których będziemy kopiować wartości marek oraz modeli samochodów, a które to będą wykorzystywane do sortowania/grupowania po tych polach:
</p>
<pre class="brush:xml">&lt;field name="make_sort" type="lowercase" indexed="true" stored="false" /&gt;
&lt;field name="model_sort" type="lowercase" indexed="true" stored="false" /&gt;</pre>
<p>Pole zbiorcze, do którego będą kopiowane wartości z pól, po których chcemy wyszukiwać. Jako że do tego pola kopiujemy wartości z więcej niż jednego pola, musimy ustawić wartość atrybutu „multiValued” na true:
</p>
<pre class="brush:xml">&lt;field name="content" type="text" indexed="true" stored="false" multiValued="true"/&gt;</pre>
<p>Rok produkcji:
</p>
<pre class="brush:xml">&lt;field name="year" type="tint" indexed="true" stored="true" required="true" /&gt;</pre>
<p>Cena:
</p>
<pre class="brush:xml">&lt;field name="price" type="tfloat" indexed="true" stored="true" /&gt;</pre>
<p>Pojemność:
</p>
<pre class="brush:xml">&lt;field name="engine_size" type="tint" indexed="true" stored="true" /&gt;</pre>
<p>Przebieg:
</p>
<pre class="brush:xml">&lt;field name="mileage" type="tint" indexed="true" stored="true" /&gt;</pre>
<p>Kolor:
</p>
<pre class="brush:xml">&lt;field name="colour" type="lowercase" indexed="true" stored="true" /&gt;</pre>
<p>Pamiętamy o wartości false dla atrybutu „indexed” dla pola „Czy uszkodzony”:
</p>
<pre class="brush:xml">&lt;field name="damaged" type="boolean" indexed="false" stored="true" /&gt;</pre>
<p>Zostało nam przekopiować wartości z pól, po których wyszukujemy do jednego pola zbiorczego:
</p>
<pre class="brush:xml">&lt;copyField source="make" dest="content"/&gt;
&lt;copyField source="model" dest="content"/&gt;
&lt;copyField source="year" dest="content"/&gt;</pre>
<p>&#8230; i ponownie pola marki i modelu do pól, po których będziemy sortować:
</p>
<pre class="brush:xml">&lt;copyField source="make" dest="make_sort"/&gt;
&lt;copyField source="model" dest="model_sort"/&gt;</pre>
<h2>Czy coś jeszcze do schemy?</h2>
<p>Uzupełnijmy scheme jeszcze o 3 elementy:<br />
Klucz unikalny dokumentu
</p>
<pre class="brush:xml">&lt;uniqueKey&gt;id&lt;/uniqueKey&gt;</pre>
<p>Domyślne pole, po którym wyszukujemy
</p>
<pre class="brush:xml">&lt;defaultSearchField&gt;content&lt;/defaultSearchField&gt;</pre>
<p>Domyślny operator, wykorzystywany przez parser zapytań do solr. Ustawmy go na wartość &#8222;AND&#8221;.
</p>
<pre class="brush:xml">&lt;solrQueryParser defaultOperator="AND"/&gt;</pre>
<p>Mamy zatem gotowy plik konfiguracyjny schema.xml! Zobaczmy jak wygląda w całej okazałości:
</p>
<pre class="brush:xml">&lt;?xml version="1.0" encoding="UTF-8" ?&gt;
&lt;schema name="carsale" version="1.2"&gt;
  &lt;types&gt;
   &lt;fieldType name="string" sortMissingLast="true" omitNorms="true"/&gt;
   &lt;fieldType name="boolean" sortMissingLast="true" omitNorms="true"/&gt;
   &lt;fieldType name="tint" precisionStep="8" omitNorms="true" positionIncrementGap="0"/&gt;
   &lt;fieldType name="tfloat" precisionStep="8" omitNorms="true" positionIncrementGap="0"/&gt;
   &lt;fieldType name="text" positionIncrementGap="100"&gt;
     &lt;analyzer&gt;
       &lt;tokenizer class="solr.WhitespaceTokenizerFactory"/&gt;
       &lt;filter class="solr.LowerCaseFilterFactory"/&gt;
     &lt;/analyzer&gt;
   &lt;/fieldType&gt;
   &lt;fieldType name="lowercase" positionIncrementGap="100"&gt;
     &lt;analyzer&gt;
       &lt;tokenizer class="solr.KeywordTokenizerFactory"/&gt;
       &lt;filter class="solr.LowerCaseFilterFactory" /&gt;
       &lt;filter class="solr.TrimFilterFactory" /&gt;
     &lt;/analyzer&gt;
   &lt;/fieldType&gt;
 &lt;/types&gt;
 &lt;fields&gt;
   &lt;field name="id" type="string" indexed="true" stored="true" required="true" /&gt;
   &lt;field name="make" type="text" indexed="false" stored="true" required="true" /&gt;
   &lt;field name="model" type="text" indexed="false" stored="true" required="true" /&gt;
   &lt;field name="make_sort" type="lowercase" indexed="true" stored="false" /&gt;
   &lt;field name="model_sort" type="lowercase" indexed="true" stored="false" /&gt;
   &lt;field name="year" type="tint" indexed="true" stored="true" required="true" /&gt;
   &lt;field name="price" type="tfloat" indexed="true" stored="true" /&gt;
   &lt;field name="engine_size" type="tint" indexed="true" stored="true" /&gt;
   &lt;field name="mileage" type="tint" indexed="true" stored="true" /&gt;
   &lt;field name="colour" type="lowercase" indexed="true" stored="true" /&gt;
   &lt;field name="damaged" type="boolean" indexed="false" stored="true" /&gt;
   &lt;field name="content" type="text" indexed="true" stored="false" multiValued="true"/&gt;
 &lt;/fields&gt;
 &lt;uniqueKey&gt;id&lt;/uniqueKey&gt;
 &lt;defaultSearchField&gt;content&lt;/defaultSearchField&gt;
 &lt;solrQueryParser defaultOperator="AND"/&gt;
 &lt;copyField source="make" dest="content"/&gt;
 &lt;copyField source="model" dest="content"/&gt;
 &lt;copyField source="make" dest="make_sort"/&gt;
 &lt;copyField source="model" dest="model_sort"/&gt;
 &lt;copyField source="year" dest="content"/&gt;
&lt;/schema&gt;</pre>
<h2>Podsumowując</h2>
<p>W dzisiejszym wpisie udało nam się stworzyć plik schema.xml, który pomoże nam tak zaindeksować dane, abyśmy mogli zrealizować funkcjonalności wyszukiwania ogłoszeń naszego serwisu sprzedaży samochodów. Chcielibyśmy jednak rozwijać nasz serwis, co będzie się wiązało z dodatkowymi zmianami w pliku konfiguracyjnym &#8230; i nie tylko. W następnych artykułach z cyklu &#8222;sprzedaż samochodów&#8221; będziemy realizować nowe wymagania oraz wprowadzać kolejne modyfikacje.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://solr.pl/2011/01/31/aplikacja-sprzedaz-samochodow-projektowanie-schema-xml-dla-naszych-potrzeb-cz-1/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>5 grzechów podczas projektowania indeksu Solr</title>
		<link>https://solr.pl/2010/08/30/5-grzechow-podczas-projektowania-indeksu-solr/</link>
					<comments>https://solr.pl/2010/08/30/5-grzechow-podczas-projektowania-indeksu-solr/#respond</comments>
		
		<dc:creator><![CDATA[Rafał Kuć]]></dc:creator>
		<pubDate>Mon, 30 Aug 2010 13:04:31 +0000</pubDate>
				<category><![CDATA[Solr]]></category>
		<category><![CDATA[atrybut]]></category>
		<category><![CDATA[atrybuty]]></category>
		<category><![CDATA[błędy]]></category>
		<category><![CDATA[inddex]]></category>
		<category><![CDATA[indeks]]></category>
		<category><![CDATA[indeksowanie]]></category>
		<category><![CDATA[schema]]></category>
		<category><![CDATA[schema.xml]]></category>
		<category><![CDATA[solr]]></category>
		<category><![CDATA[struktura]]></category>
		<category><![CDATA[struktura indeksu]]></category>
		<guid isPermaLink="false">http://sematext.solr.pl/?p=28</guid>

					<description><![CDATA[Zgodnie z obietnicą złożoną we wpisie na temat pliku schema.xml prezentujemy dzisiaj wpis dotyczący najczęściej popełnianych błędów podczas projektowania indeksu Solr, czyli podczas tworzenia i modyfikowania pliku schema.xml dla naszego wdrożenia. Zapraszam do dalszej lektury. Każdy z nas wie co]]></description>
										<content:encoded><![CDATA[<p>Zgodnie z obietnicą złożoną we wpisie na temat pliku <em>schema.xml</em> prezentujemy dzisiaj wpis dotyczący najczęściej popełnianych błędów  podczas projektowania indeksu Solr, czyli podczas tworzenia i  modyfikowania pliku <em>schema.xml</em> dla naszego wdrożenia. Zapraszam do dalszej lektury.</p>
<p><span id="more-28"></span></p>
<p>Każdy z nas wie co to jest plik<em> schema.xml</em> i do czego służy  (jeżeli nie, to zapraszam do lektury wpisu znajdującego się pod adresem:  <a href="http://solr.pl/2010/08/16/co-to-jest-schema/" target="_blank" rel="noopener noreferrer">http://solr.pl/2010/08/16/co-to-jest-schema/</a>). Jakie błędy najczęściej  popełniamy tworząc lub uaktualniając ten plik ? Ja osobiście spotkałem  się z następującymi:</p>
<h3><strong>1. Śmietnik w konfiguracji </strong></h3>
<p>Pierwsza zasada jaką wyznaję to trzymanie pliku <em>schema.xml</em> w  najprostszej z możliwych postaci. Wiąże się z tym jedna bardzo ważna  sprawa &#8211; plik ten nie powinien być synonimem chaosu. Jednym słowem, nie  trzymajmy tak niepotrzebnych komentarzy, niepotrzebnych typów, pól i tak  dalej. Porządek w strukturze indeksu ułatwia nam nie tylko utrzymywanie  tego pliku i jego modyfikacje, ale przede wszystkim upewnia nas, że nie  indeksujemy informacji, które są zbędne z punktu widzenia aplikacji  wykorzystującej Solr.</p>
<h3><strong>2. Kosmetyczne zmiany domyślnej konfiguracji</strong></h3>
<p>Ile z osób, które wykorzystuje Solr w swojej codziennej pracy brało domyślny plik <em>schema</em>.<em>xml</em> dostarczany w przykładowym wdrożeniu Solr i tylko nieznacznie  modyfikowało jego zawartość &#8211; na przykład zmieniając tylko nazwy pól ?  Sam powinienem podnieść rękę, bo sam kiedyś tak zrobiłem. Jest to dość  duży błąd według mnie. Ktoś może się zapytać dlaczego. Czy na pewno  robiąc wyszukiwanie w treściach napisanych w języku polskim potrzebujemy  na przykład angielskiego stemmingu ? Wydaje mi się, że jednak nie  potrzebujemy. Czy na pewno we wszystkich przypadkach potrzebujemy  przechowywać informacje o wektorach termów ?</p>
<h3><strong>3. Brak uaktualnień </strong></h3>
<p>Czasami zdarza mi się trafić na wdrożenia, gdzie wraz z uaktualnieniami wersji Solr nie uaktualnia się pliku <em>schema.xml</em>.  Jeżeli jest to świadoma decyzja, podyktowana np. kosztowną, bądź wręcz  niemożliwą ponowną indeksacją wszystkich danych, to rozumiem sytuację.  Są jednak przypadki kiedy uaktualnienie przyniosłoby same korzyści, a  środki jakie trzeba by było przeznaczyć na takie uaktualnienie są  minimalne (np. mało kosztowna reindeksacja, bądź niewielkie zmiany w  aplikacji). Nie bójmy się uaktualniać pliku <em>schema.xml</em> &#8211; czy chodzi to o aktualizację pól, aktualizację typów, czy dodanie nowszych rzeczy. Dobrym przykładem jest  tutaj migracja z Solr 1.3 na wersję 1.4 wprowadzającą duże zmiany  związane z typami liczbowymi, gdzie migracja na nowe typy skutkowała  naprawdę dużym wzrostem wydajności zapytań z nich korzystających (np.  zapytań wykorzystujących przedziały wartości).&nbsp; <strong><br />
</strong></p>
<h3><strong>4. &#8222;A może kiedyś się przyda&#8221;</strong></h3>
<p>Dodawanie nowych typów, nieusuwanie już niepotrzebnych, tak samo w przypadku pól, czy definicji <em>copyField</em>.  Wiem, to się kiedyś może jeszcze przydać, ale pamiętajmy, że każdy typ  to dodatkowa pamięć potrzebna Solr, każde pole to miejsce w indeksie,  tak samo jak każdy <em>copyField</em>. Moja drobna rada &#8211; jeżeli  przestajesz wykorzystywać typ, pole, czy cokolwiek innego co masz w  pliku konfiguracyjnym (nie tylko w <em>schema.xml</em>) po prostu usuń  to z tego pliku. Stosując tą zasadę przez cały cykl życia aplikacji  korzystającej z Solr będziesz zawsze mieć pewność, że indeks jest w  optymalnym stanie, a po kilku miesiącach od wdrożenia nie trzeba się  będzie zastanawiać i przekopywać przez kod aplikacji, aby sprawdzić czy  na pewno dane pole, czy typ jest wykorzystywany.</p>
<h3><strong>5. Atrybuty, atrybuty i jeszcze raz atrybuty</strong></h3>
<p>Przechowywanie  oryginalnych wartości, dodanie wektora termów i jego właściwości to  tylko przykłady, które mogą spowodować, mamy większy, niż wymaga tego  aplikacja, index. Większy index, mniejsza wydajność, przynajmniej w  niektórych wypadkach (np. w przypadku indeksowania). Warto więc  zastanowić się, czy na pewno potrzebujemy tych wszystkich informacji,  które każemy Solr wyliczać i przechowywać. Usunięcie niektórych,  oczywiście niepotrzebnych z naszego punktu widzenia informacji, może nas  miło zaskoczyć. Czasami warto spróbować <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/1f609.png" alt="😉" class="wp-smiley" style="height: 1em; max-height: 1em;" /> <strong><br />
</strong></p>
<p>Zapraszam do komentowania, ponieważ chętnie poczytam, na co jeszcze powinno się zwracać uwagę przy modyfikacji pliku <em>schema.xml</em>.</p>
<p>Na koniec, warto wspomnieć o artykule &#8222;<em>The Seven Deadly Sins of Solr</em>&#8221; opublikowanym na stronach LucidImagination pod adresem: <a href="http://www.lucidimagination.com/blog/2010/01/21/the-seven-deadly-sins-of-solr/" target="_blank" rel="noopener noreferrer">http://www.lucidimagination.com/blog/2010/01/21/the-seven-deadly-sins-of-solr/</a>. Opisuje on złe praktyki w trakcie pracy z Solr i zahacza także o temat plików konfiguracyjnych. Moim zdaniem ciekawa lektura. Polecam.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://solr.pl/2010/08/30/5-grzechow-podczas-projektowania-indeksu-solr/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Co to jest schema ?</title>
		<link>https://solr.pl/2010/08/16/co-to-jest-schema/</link>
					<comments>https://solr.pl/2010/08/16/co-to-jest-schema/#respond</comments>
		
		<dc:creator><![CDATA[Rafał Kuć]]></dc:creator>
		<pubDate>Mon, 16 Aug 2010 14:07:45 +0000</pubDate>
				<category><![CDATA[Solr]]></category>
		<category><![CDATA[analiza]]></category>
		<category><![CDATA[filtr]]></category>
		<category><![CDATA[indeks]]></category>
		<category><![CDATA[index]]></category>
		<category><![CDATA[pole]]></category>
		<category><![CDATA[schema]]></category>
		<category><![CDATA[schema.xml]]></category>
		<category><![CDATA[solr]]></category>
		<category><![CDATA[tokenizer]]></category>
		<category><![CDATA[typ]]></category>
		<category><![CDATA[typ pola]]></category>
		<category><![CDATA[type]]></category>
		<guid isPermaLink="false">http://sematext.solr.pl/?p=24</guid>

					<description><![CDATA[Jednym z plików konfiguracyjnych opisujących każde wdrożenie Solr jest plik schema.xml. Opisuje on jedną z najważniejszych rzeczy dotyczącą wdrożenia &#8211; strukturę indeksu. Informacje zawarte w tym pliku pozwalają kontrolować, jak zachowuje się Solr podczas indeksowania danych, czy też zadawania zapytań]]></description>
										<content:encoded><![CDATA[<p>Jednym z plików konfiguracyjnych opisujących każde wdrożenie Solr jest plik <em>schema.xml</em>. Opisuje on jedną z najważniejszych rzeczy dotyczącą wdrożenia &#8211; strukturę indeksu. Informacje zawarte w tym pliku pozwalają kontrolować, jak zachowuje się Solr podczas indeksowania danych, czy też zadawania zapytań do odpowiednich pól. <em>Schema.xml</em> to jednak nie tylko sama struktura indeksu, to także szczegółowe informacje o typach danych, które mają duży wpływ na zachowanie Solr, a z reguły są traktowane po macoszemu. Tym wpisem postaram się przybliżyć składowe pliku <em>schema.xml</em>.</p>
<p><span id="more-24"></span></p>
<p>Plik <em>schema.xml</em> składa się z kilku części:</p>
<ul>
<li> wersji,</li>
<li>definicji typów,</li>
<li>definicji pól,</li>
<li>sekcji <em>copyField</em>,</li>
<li>dodatkowych definicji.</li>
</ul>
<h3>Wersja</h3>
<p>Pierwszą rzeczą na jaką natrafimy w pliku schema.xml jest wersja. Jest to informacja o tym jak Solr ma traktować niektóre z atrybutów w pliku schema.xml. Definicja ta wygląda następująco:
</p>
<pre class="brush:xml">&lt;schema name="example" version="1.3"&gt;</pre>
<p>Należy pamiętać, iż nie jest to definicja wersji z punktu widzenia naszego projektu. W tym momencie Solr obsługuje 4 wersje pliku <em>schema.xml</em>:</p>
<ul>
<li>1.0 &#8211; nie istniał atrybut <em>multiValued</em>, wszystkie pola były domyślnie wielowartościowe.</li>
<li>1.1 &#8211; wprowadzono atrybut <em>multiValued</em>, domyślna wartość atrybutu to <em>false</em>.</li>
<li>1.2 &#8211; wprowadzono atrybut <em>omitTermFreqAndPositions</em>, domyślna wartość to <em>true </em>dla wszystkich pól, oprócz pól tekstowych.</li>
<li>1.3 &#8211; usunięto opcjonalną możliwość kompresji pól.</li>
</ul>
<h3>Definicje typów</h3>
<p>Definicje typów można logicznie podzielić na dwie oddzielne sekcje &#8211; typy proste i typy złożone. Typy proste w przeciwieństwie do typów złożonych nie posiadają zdefiniowanych filtrów i tokenizera.</p>
<p><strong>Typy proste</strong></p>
<p>Kolejnymi definicjami, na jakie trafimy w pliku<em> schema.xml</em> są definicje typów z których składać się będzie nasz indeks. Każdy z typów opisany jest szeregiem atrybutów, które opisują zachowanie danego typu. Na początek kilka atrybutów, które opisują każdy typ:</p>
<ul>
<li><em>name </em>&#8211; nazwa typu, atrybut wymagany,</li>
<li><em>class </em>&#8211; klasa, która odpowiada za implementację typu. Warto pamiętać, że  klasy standardowo dostarczane z Solr będą miały nazwy z przedrostkiem  'solr&#8217;.</li>
</ul>
<p>Oprócz dwóch wymienionych powyżej, typy mogą mieć jeszcze następujące atrybuty opcjonalne:</p>
<ul>
<li><em>sortMissingLast</em> &#8211; atrybut określający, jak mają być traktowane wartości w polu opartym o ten typ podczas sortowania. W przypadku ustawienia na wartość <em>true </em>na końcu listy wyników zawsze będą dokumenty nie posiadające wartości w polach oparty o dany typ &#8211; bez względu na to, czy sortujemy rosnąco, czy malejąco. Domyślna wartość atrybutu to <em>false</em>. Atrybut może być stosowany, tylko w przypadku typów, które przez Lucene traktowane są jako string.</li>
<li><em>sortMissingFirst </em>&#8211; atrybut określający, jak mają być traktowane wartości  w polu opartym o ten typ podczas sortowania. W przypadku ustawienia na  wartość true na początku listy wyników zawsze będą dokumenty nie  posiadające wartości w polach oparty o dany typ &#8211; bez względu na to, czy  sortujemy rosnąco, czy malejąco. Domyślna wartość atrybutu to <em>false</em>.  Atrybut może być stosowany, tylko w przypadku typów, które przez Lucene  traktowane są jako string.</li>
<li><em>omitNorms </em>&#8211; atrybut określający, czy podczas analizy mają być wyliczane normalizacje.</li>
<li><em>omitTermFreqAndPositions </em>&#8211; atrybut określający, czy podczas analizy ma  być pomijane wyliczanie częstotliwości poszczególnych termów oraz ich  pozycji w dokumencie.</li>
<li><em>indexed </em>&#8211; atrybut określający, czy pola oparte o ten typ mają przechowywać oryginalne wartości.</li>
<li><em>positionIncrementGap </em>&#8211; co ile pozycji (a dokładniej pozycji tokenów w strumieniu tokenów) ma być wyliczane trafienie.</li>
</ul>
<p>Warto pamiętać, iż w przypadku domyślnego ustawienia atrybutów sortMissingLast i sortMissingFirst Lucene będzie stosować zachowanie polegające na umieszczeniu dokumentów z pustymi wartościami na początku w przypadku sortowania rosnącego, a na końcu listy wyników w przypadku sortowania malejącego.</p>
<p>Kolejną opcją typów prostych, jednak dotyczącą tylko nowych typów liczbowych (typy<em> Trie*Field</em>), jest następujący atrybut:</p>
<ul>
<li><em>precisionStep </em>&#8211; atrybut określający ilość bitów precyzji. Im większa ilość bitów, tym szybsze zapytania oparte o przedziały liczbowe. Wiąże się to jednak także ze wzrostem wielkości indeksu, jako, że indeksowanych jest więcej wartości. Ustawienie wartości atrybutu na 0 wyłącza funkcjonalność indeksowania na różnych precyzjach.</li>
</ul>
<p>Przykładem zdefiniowanego typu prostego może być na przykład:
</p>
<pre class="brush:xml">&lt;fieldType name="string" class="solr.StrField" sortMissingLast="true" omitNorms="true"/&gt;</pre>
<p><strong>Typy złożone</strong></p>
<p>Oprócz typów prostych, plik <em>schema.xml</em> może zawierać typy składające się z tokenizera oraz filtrów. Tokenizer odpowiada za podzielenie zawartości pola na tokeny, natomiast filtry odpowiadają za dalszą analizę. Na przykład typ, który odpowiada za przechowywanie tekstów w języku polskim, mogłoby składać się z tokenizera odpowiadającego za dzielenie słów na podstawie białych znaków oraz kropek i przecinków, a przykładowe filtry mogłyby odpowiadać za sprowadzanie powstałych tokenów do małych liter, dalsze dzielenie tokenów (np. na podstawie myślników), a następnie sprowadzanie tokenów do formy podstawowej.</p>
<p>Typy złożone, tak jak typy proste, mają swoją nazwę (atrybut <em>name</em>) oraz klasę która odpowiada za implementację (atrybut <em>class</em>). Mogą się także charakteryzować innymi atrybutami opisanymi w przypadku typów prostych (na tych samych zasadach). Dodatkowo jednak typy złożone mogą posiadać definicję tokenizera oraz filtrów, które mają być wykorzystane na etapie indeksowania, jak i na etapie zadawania zapytań. Jak zapewne większość wie, dla danego etapu (indeksowanie, bądź zadawanie zapytań) może być zdefiniowany szereg filtrów oraz tylko i wyłącznie jeden tokenizer. Przykładowo, tak wygląda definicja typu tekstowego w przykładowej instalacji dostarczanej razem z Solr:
</p>
<pre class="brush:xml">&lt;fieldType name="text" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="true"&gt;
   &lt;analyzer type="index"&gt;
      &lt;tokenizer class="solr.WhitespaceTokenizerFactory"/&gt;
      &lt;filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" /&gt;
      &lt;filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/&gt;
      &lt;filter class="solr.LowerCaseFilterFactory"/&gt;
      &lt;filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/&gt;
      &lt;filter class="solr.PorterStemFilterFactory"/&gt;
   &lt;/analyzer&gt;
   &lt;analyzer type="query"&gt;
      &lt;tokenizer class="solr.WhitespaceTokenizerFactory"/&gt;
      &lt;filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/&gt;
      &lt;filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" /&gt;
      &lt;filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/&gt;
      &lt;filter class="solr.LowerCaseFilterFactory"/&gt;
      &lt;filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/&gt;
      &lt;filter class="solr.PorterStemFilterFactory"/&gt;
   &lt;/analyzer&gt;
&lt;/fieldType&gt;</pre>
<p>Warto zauważyć dodatkowy atrybut dla pola tekstowego:</p>
<ul>
<li><em>autoGeneratePhraseQueries</em></li>
</ul>
<p>Atrybut odpowiada za to, jak zachowują się filtry przy rozdzielaniu tokenów. Niektóre z filtrów (taki, jak np. <em>WordDelimiterFilter</em>) pozwala na dzielenie słów np. za pomocą znaku myślnika. Ustawienie atrybutu na wartość true (wartość domyślna) powoduje automatyczne generowanie zapytań o frazę, czyli tzw. <em>PhraseQueries</em>. Oznacza to, że np. dla słowa &#8222;wi-fi&#8221;, które zostanie rozbite przez filtr WordDelimiterFilter na słowa &#8222;wi&#8221; oraz &#8222;fi&#8221; zostanie wygenerowane zapytanie <code>pole:"wi fi"</code>, a nie zapytanie <code>pole:wi OR pole:fi</code>. Należy jednak pamiętać, iż atrybut ten potrafi gubić się w przypadku pól, które mają zdefiniowany tokenizer dzielący słowa inaczej, niż po białych znakach.</p>
<p>Wracając do definicji typu. Jak widać, przykład który podałem ma dwie główne sekcje:
</p>
<pre class="brush:xml">&lt;analyzer type="index"&gt;</pre>
<p>oraz
</p>
<pre class="brush:xml">&lt;analyzer type="query"&gt;</pre>
<p>Pierwsza z sekcji odpowiada za definicję typu, która będzie użyta w przypadku indeksowania dokumentów, druga sekcja odpowiada za definicję typu używaną w przypadku zapytań do pól opartych o ten typ. Warto wiedzieć, że jeżeli chcemy korzystać z tej samej definicji dla indeksowania i zadawania zapytań, możemy zrezygnować z obu sekcji. Wtedy nasza definicja typu wyglądałaby na przykład następująco:
</p>
<pre class="brush:xml">&lt;fieldType name="text" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="true"&gt;
   &lt;tokenizer class="solr.WhitespaceTokenizerFactory"/&gt;
   &lt;filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" /&gt;
   &lt;filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/&gt;
   &lt;filter class="solr.LowerCaseFilterFactory"/&gt;
   &lt;filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/&gt;
   &lt;filter class="solr.PorterStemFilterFactory"/&gt;
&lt;/fieldType&gt;</pre>
<p>Jak już wspomniałem w definicji każdego typu złożonego występuje jeden tokenizer oraz szereg filtrów (choć nie koniecznie). Nie będę opisywał poszczególnych opcji każdego z filtrów oraz tokenizerów dostępnych standardowo z Solr. Informacje te dostępne są pod następującym adresem: <a href="http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters" target="_blank" rel="noopener noreferrer">http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters</a>.</p>
<p>Na koniec chciałem dodać ważną rzecz. Począwszy od Solr 1.4 tokenizer nie musi być pierwszym mechanizmem jaki zajmuje się analizą danego pola &#8211; zostały wprowadzone nowe filtry tzw. Char Filters, które operują na nietokenizowanym jeszcze polu i dopiero później przekazują wynik do tokenizera. Warto o tym wiedzieć, ponieważ może się to kiedyś przydać.</p>
<p><strong>Typy wielowymiarowe</strong></p>
<p>Na koniec zostawiłem sobie mały dodatek &#8211; opis nowości w Solr 1.4 &#8211; pól wielowymiarowych, czyli pól składających się z szeregu innych pól. Ogólnie można powiedzieć, iż założenie tego typu pól było proste &#8211; umożliwić przechowywanie w Solr par, trójek, czy większej ilości powiązanych ze sobą danych, takich jak na przykład współrzędne geograficzne punktu. W praktyce realizowane jest to za pomocą pól dynamicznych, jednak pozwolę sobie nie wgłębiać się w szczegóły implementacji. Przykładowa definicja typu, składającego się z dwóch pól:
</p>
<pre class="brush:xml">&lt;fieldType name="location" class="solr.PointType" dimension="2" subFieldSuffix="_d"/&gt;</pre>
<p>Oprócz standardowych atrybutów <em>name </em>oraz <em>class </em>pojawiają się dwa nowe:</p>
<ul>
<li><em>dimension </em>&#8211; ilość wymiarów (atrybut wykorzystywany przez klasę <em>solr.PointType)</em>.</li>
<li><em>subFieldSuffix </em>&#8211; przyrostek, jaki będzie dodawany do pól dynamicznych  wchodzących w skład pola. Ważne aby pamiętać, iż tak zdefiniowane pole  stworzy trzy pola w indeksie &#8211; pole oparte o typ <em>location </em>oraz dwa pola dynamiczne<em></em><em></em>.</li>
</ul>
<h3>Definicje pól</h3>
<p>Definicje pól to kolejna sekcja w pliku <em>schema.xml</em>, to sekcja, która teoretycznie powinna interesować nas najbardziej podczas projektowania indeksu Solr. Z reguły znajdziemy tutaj dwa rodzaje definicji pól:</p>
<ol>
<li>Pola statyczne</li>
<li>Pola dynamiczne</li>
</ol>
<p>Pola te są różnie traktowane przez Solr. Pierwszy typ pól, to pola, które dostępne są pod jedną nazwą. Pola dynamiczne, jako nazwę mają proste wyrażenie regularne (nazwa zaczynająca się lub kończąca się znakiem '*&#8217;). Należy pamiętać, iż Solr najpierw wybiera pole statyczne, a dopiero później pola dynamiczne. Dodatkowo w przypadku nazwy pola, która pasuje do więcej, niż jednej definicji, wybrane zostanie pole z dłuższą definicją nazwy.</p>
<p>Wracając do definicji pól (zarówno statycznych, jak i dynamicznych), składają się one z następujących atrybutów:</p>
<ul>
<li><em>name </em>&#8211; nazwa pola (atrybut wymagany).</li>
<li><em>type </em>&#8211; typ pola, czyli jeden z typów zdefiniowanych wcześniej (atrybut wymagany).</li>
<li><em>indexed </em>&#8211; czy pole ma być indeksowane (ustawiamy na wartość <em>true</em>, jeżeli chcemy wyszukiwać lub sortować po tym polu).</li>
<li><em>stored </em>&#8211; czy mają być przechowywane oryginalne wartości (ustawiamy na  wartość <em>true</em>, jeżeli chcemy pobierać oryginalną wartość przekazaną do  tego pola).</li>
<li><em>omitNorms </em>&#8211; czy ma być pomijane wyliczanie norm dla tego pola (ustawiamy  na wartość <em>true </em>dla pól, dla których będziemy stosować wyszukiwanie pełnotekstowe).</li>
<li><em>termVectors </em>&#8211; ustawiamy na wartość true w przypadku kiedy chcemy  przechowywać tzw. wektor termów. Domyślna wartość parametru, to wartość <em> false</em>. Niektóre funkcjonalności wymagają ustawienia tego parametru na <em> true </em>(np. <em>MoreLikeThis</em>, czy <em>FastVectorHighlighting</em>).</li>
<li><em>termPositions </em>&#8211; ustawiamy na wartość <em>true</em>, jeżeli chcemy aby wraz z  wektorem przechowywane były pozycje termów. Ustawienie na wartość <em>true </em>spowoduje wzrost wielkości indeksu.</li>
<li><em>termOffsets </em>&#8211; ustawiamy na wartość <em>true</em>, jeżeli chcemy aby wraz z  wektorem termów przechowywane były przesunięcia. Ustawienie na wartość <em> true </em>spowoduje wzrost wielkości indeksu.</li>
<li><em>default </em>&#8211; domyślna wartość jaka ma zostać nadana polu, jeżeli w dokumencie nie było podanej żadnej wartości.</li>
</ul>
<p>Poniżej przykładowe definicje pól:
</p>
<pre class="brush:xml">&lt;field name="id" type="string" indexed="true" stored="true" required="true" /&gt;
&lt;field name="includes" type="text" indexed="true" stored="true" termVectors="true" termPositions="true" termOffsets="true" /&gt;
&lt;field name="timestamp" type="date" indexed="true" stored="true" default="NOW" multiValued="false"/&gt;
&lt;dynamicField name="*_i" type="int" indexed="true" stored="true"/&gt;</pre>
<p>Na koniec jeszcze dodatkowa informacja o której warto pamiętać. Oprócz atrybutów wymienionych powyżej przy definicji pola możemy nadpisywać atrybuty jakie zostały zdefiniowane dla typu (np. czy pole ma być wielowartościowe &#8211; z powyższego przykładu pole o nazwie timestamp). Czasami taka funkcjonalność może się przydać, jeżeli potrzebujemy specyficznego pola, którego typ różni się nieznacznie od innego typu (tak jak w przykładzie &#8211; tylko atrybutem multiValued). Oczywiście należy pamiętać o ograniczeniach nakładanych na poszczególne atrybuty związane z typami.</p>
<h3>Sekcja copyField</h3>
<p>W skrócie sekcja odpowiadająca za kopiowanie zawartości pól do innych pól. Definiujemy z jakiego pola ma być skopiowana zawartość oraz do jakiego pola. Należy pamiętać, iż kopiowana jest zawartość przed analizą, czy wartość jaka przychodzi w danych. Przykład definicji copyField:
</p>
<pre class="brush:xml">&lt;copyField source="category" dest="text"/&gt;</pre>
<p>W gwoli ścisłości, występujące atrybuty oznaczają:</p>
<ul>
<li><em>source </em>&#8211; pole źródłowe,</li>
<li><em>dest </em>&#8211; pole docelowe.</li>
</ul>
<h3>Dodatkowe definicje</h3>
<p><strong>1. Zdefiniowanie unikalnego klucza</strong></p>
<p>Definicja unikalnego klucza, dzięki któremu możliwe będzie jednoznaczne zidentyfikowanie dokumentu. Zdefiniowanie unikalnego klucza nie jest konieczne, ale jest zalecane. Przykładowa definicja:
</p>
<pre class="brush:xml">&lt;uniqueKey&gt;id&lt;/uniqueKey&gt;</pre>
<p><strong>2. Zdefiniowanie domyślnego pola wyszukiwania</strong></p>
<p>Sekcja odpowiadająca za zdefiniowanie domyślnego pola, w którym Solr ma wyszukiwać w przypadku kiedy nie zostało podane żadne pole. Przykładowa definicja:
</p>
<pre class="brush:xml">&lt;defaultSearchField&gt;content&lt;/defaultSearchField&gt;</pre>
<p><strong>3. Zdefiniowanie domyślnego operatora logicznego</strong></p>
<p>Sekcja odpowiadająca za definicje domyślnego operatora logicznego, który będzie używany, jeżeli nie zostanie podany żaden operator logiczny. Przykładowa definicja wygląda w następujący sposób:
</p>
<pre class="brush:xml">&lt;solrQueryParser defaultOperator="OR"/&gt;</pre>
<p>Możliwe wartości to: <em>OR </em>oraz <em>AND</em>.</p>
<p><strong>4. Zdefiniowanie podobieństwa</strong></p>
<p>Na koniec zostaje nam zdefiniowanie podobieństwa, jakie będziemy wykorzystywać. Jest to raczej temat na inny wpis, należy jednak wiedzieć, iż w razie konieczności mamy możliwość zmiany domyślnego podobieństwa (aktualnie w trunku Solr są już dwie klasy obsługujące podobieństwo). Przykładowa definicja wygląda następująco:
</p>
<pre class="brush:xml">&lt;similarity class="pl.solr.similarity.CustomSimilarity" /&gt;</pre>
<h3>Kilka słów na koniec</h3>
<p>Powyżej przedstawione informacje powinny dać pewien wgląd na temat jakim jest plik <em>schema.xml</em> oraz za co odpowiadają poszczególne sekcje w tym pliku. W niedługim czasie postaram się napisać, czego wystrzegać się podczas projektowania indeksu.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://solr.pl/2010/08/16/co-to-jest-schema/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
	</channel>
</rss>
