<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>parser &#8211; Solr.pl</title>
	<atom:link href="https://solr.pl/tag/parser/feed/" rel="self" type="application/rss+xml" />
	<link>https://solr.pl</link>
	<description>All things to be found - Blog related to Apache Solr &#38; Lucene projects - https://solr.apache.org</description>
	<lastBuildDate>Thu, 12 Nov 2020 13:56:38 +0000</lastBuildDate>
	<language>pl-PL</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9</generator>
	<item>
		<title>Solr i dostępne query parsery</title>
		<link>https://solr.pl/2013/08/19/solr-i-dostepne-query-parsery/</link>
					<comments>https://solr.pl/2013/08/19/solr-i-dostepne-query-parsery/#respond</comments>
		
		<dc:creator><![CDATA[Rafał Kuć]]></dc:creator>
		<pubDate>Mon, 19 Aug 2013 12:56:10 +0000</pubDate>
				<category><![CDATA[Solr]]></category>
		<category><![CDATA[parser]]></category>
		<category><![CDATA[query parser]]></category>
		<guid isPermaLink="false">http://sematext.solr.pl/?p=568</guid>

					<description><![CDATA[Wiele osób nie zdaje sobie sprawy, jak dużo różnych query parserów dostępny jest w Solr. W dzisiejszym wpisie chciałbym przybliżyć wszystkim czytelnikom listę dostępnych parserów i krótko wspomnieć co każdy z nich oferuje. Zacznijmy od listy Korzystając z parameteru defType]]></description>
										<content:encoded><![CDATA[<p>Wiele osób nie zdaje sobie sprawy, jak dużo różnych query parserów dostępny jest w Solr. W dzisiejszym wpisie chciałbym przybliżyć wszystkim czytelnikom listę dostępnych parserów i krótko wspomnieć co każdy z nich oferuje.</p>
<p><span id="more-568"></span></p>
<h3>Zacznijmy od listy</h3>
<p>Korzystając z parameteru <em>defType</em> w trakcie zapytania jesteśmy w stanie określić, który query parser zostanie wykorzystany w trakcie przetwarzania naszego zapytania. Lista dostępnych query parserów w Solr 4.4 przedstawia się następująco:</p>
<ul>
<li>lucene</li>
<li>lucenePlusSort</li>
<li>func</li>
<li>prefix</li>
<li>boost</li>
<li>dismax</li>
<li>edismax</li>
<li>field</li>
<li>raw</li>
<li>term</li>
<li>query</li>
<li>frange</li>
<li>geofilt</li>
<li>bbox</li>
<li>join</li>
<li>surround</li>
<li>switch</li>
<li>maxscore</li>
</ul>
<p>Przejdźmy zatem do ich opisu.</p>
<h3>Lucene Query Parser &#8211; lucene</h3>
<p>Domyślny parser wykorzystywany przez Solr umożliwiający zadawanie zapytań z wykorzystaniem języka zapytań Lucene (z pewnymi, małymi zmianami o których można przeczytać tutaj: <a href="http://wiki.apache.org/solr/SolrQuerySyntax" target="_blank" rel="noopener noreferrer">http://wiki.apache.org/solr/SolrQuerySyntax</a>). Przykładowe zapytanie z wykorzystaniem tego parsera wygląda następująco: <em>q=+title:harry +category:books</em></p>
<h3>Old Lucene Query Parser &#8211; lucenePlusSort</h3>
<p>Stary parser Lucene, który wydaje się być bardzo rzadko wykorzystywany. Wyróżniał się tym, iż pozwalał na określenie sortowania w samym zapytaniu (metoda ta oznaczona jest jako <em>deprecated</em>). Zapytanie takie wyglądało następująco: <em>q={!lucenePlusSort}title:harry;price asc</em></p>
<h3>Function Query Parser &#8211; func</h3>
<p>Parser umożliwiający wykorzystanie funkcji (<a href="http://wiki.apache.org/solr/FunctionQuery">http://wiki.apache.org/solr/FunctionQuery</a>) w zapytaniu. Na przykład, można go wykorzystać do wykonywania obliczeń na etapie zapytań: <em>q={!func}add($value1,$value2)&amp;value1=max(price,100)&amp;value2=1.0</em>.</p>
<h3>Prefix Query Parser &#8211; prefix</h3>
<p>Jeden z parserów, którego nie interesuje typ pola &#8211; wartości do niego podane nie będą poddane analizie. Sam parser służy do wykonywania zapytań z wykorzystaniem przedrostków, na przykład zapytanie, takie jak <em>q={!prefix}har</em> jest prawie tym samym co zapytanie <em>q=har*</em> wykorzystujący domyślny Lucene query parser.</p>
<h3>Boost Query Parser &#8211; boost</h3>
<p>Parser umożliwiający tworzenie zapytań modyfikujących wartości <em>score</em> dokumentów. Na przykład, jeżeli chcemy, aby <em>score</em> dokumentów zwracanych w odpowiedzi na zapytanie <em>harry</em> były zmodyfikowane zapytaniem <em>recip(ms(NOW,published),3.16e-11,1,1)</em>, możemy zadać następujące zapytanie: <em>{!boost b=recip(ms(NOW,published),3.16e-11,1,1)}harry</em>.</p>
<h3>Dismax Query Parser &#8211; dismax</h3>
<p>Parser obsługujący uproszczoną wersję języka zapytań Lucene (np. nie ma możliwości przekazania nazwy pola w zapytaniu), który na wyjściu tworzy tzw. zapytania disjunction max (wiem, wiem, dziwnie to brzmi) stworzone z przekazanego zapytania oraz pól zdefiniowanych w parametrze <em>qf</em>. Pozwala na definiowanie liczby słów, jakie muszą być znalezione w dokumencie (za pomocą parametru <em>mm</em>) oraz definicji, jak powinny być traktowane poszczególne elementy wpływające na finalny <em>score</em> dokumentu (parametr <em>tie</em>). Wszystkie parametery udostępnianie przez ten parser oraz jego opis można znaleźć na wiki Solr, pod adresem: <a href="http://wiki.apache.org/solr/DisMaxQParserPlugin">http://wiki.apache.org/solr/DisMaxQParserPlugin</a>.</p>
<h3>Extended Dismax Query Parser &#8211; edismax</h3>
<p>Rozszerzona wersja parsera <em>dismax</em>, umożliwiająca między innymi podawanie nazw pól w głównym zapytaniu. Parser ten, został zaprojektowany z myślą o możliwości podawania bardziej skomplikowanych zapytań, niż te, które można było przekazać za pomocą parametru <em>q</em> w przypadku parsera <em>dismax</em>. Wszystkie parametry i dokładniejszy opis parsera można znaleźć na wiki Solr pod adresem: <a href="http://wiki.apache.org/solr/ExtendedDisMax">http://wiki.apache.org/solr/ExtendedDisMax</a>.</p>
<h3>Field Query Parser &#8211; field</h3>
<p>Field query parser umożliwia nam wykonywanie zapytań przeciwko danemu polu. Przekazana do parsera wartość zostanie poddana analizie oraz zostanie stworzone zapytanie o frazę, jeżeli jest taka możliwość. Na przykład, zapytanie postaci <em>{!field f=title}harry potter </em>jest mniej, więcej odpowiednikiem zapytania <em>title:&#8221;harry potter&#8221;</em> w przypadku korzystania z domyślnego Lucene query parsera.</p>
<h3>Raw Query Parser &#8211; raw</h3>
<p>Parser umożliwiający przekazanie terma, który nie zostanie poddany analizie przez Solr. Na przykład zapytanie <em>{!raw f=title}harry</em> zaowocuje stworzeniem <em>TermQuery</em> do pola <em>title</em>&nbsp; z wartością <em>harry</em>.</p>
<h3>Term Query Parser &#8211; term</h3>
<p>Parser przydatny do zadawania zapytań, które powinny zostać potraktowane jako filtry, np. w przypadku zawężania facetingu &#8211; <em>{!term f=category}book</em>. Należy pamiętać, iż wartość przekazana do tego parsera nie zostanie poddana analizie.</p>
<h3>Nested Query Parser &#8211; query</h3>
<p>Parser umożliwiający przekazanie podzapytania, z możliwością zmiany typu podzapytania. Na przykład weźmy następujące zapytanie <em>{!query defType=func v=$query}&amp;$query=max(price,100) </em>będzie ono skutkować wywołaniem zapytania z wykorzystaniem funkcji zdefiniowanego w parametrze <em>query</em>. Jeżeli natomiast zmienimy parametr <em>query</em> na następujący: <em>$query={!term f=category}book</em>, wtedy zostanie wykonane zapytanie z wykorzystaniem term query parsera, a zatem parametr <em>defType</em> zostanie nadpisany. Nested query parser jest użyteczny na przykład w sytuacji, kiedy chcemy umożliwić użytkownikom wykorzystanie wartości zapisanych w parametrach konfiguracyjnych.</p>
<h3>Function Range Query Parser &#8211; frange</h3>
<p>Parser umożliwiający zadanie zapytanie o zakres wartości wyniku działania funkcji (pisaliśmy o tym &#8211; <a title="Krótkie spojrzenie: frange" href="http://solr.pl/2011/05/30/krotkie-spojrzenie-frange/">http://solr.pl/2011/05/30/krotkie-spojrzenie-frange/</a>). Parser umożliwia wykorzystanie czterech parametrów: <em>l</em>, <em>u</em>, <em>incl</em>, <em>incu</em> które pozwalają na konfigurowanie jego zachowania. Przykładowe zapytanie z wykorzystaniem tego parsera może wyglądać następująco: <em>{!frange l=10 u=12 incl=true incu=true}sum(price,rate)</em>.</p>
<h3>Spatial Filter Query Parser &#8211; geofilt</h3>
<p>Jeden z dwóch parserów umożliwiających zawężanie dokumentów na podstawie ich lokalizacji oraz odległości od podanego punktu geograficznego. Na przykład zapytanie <em>q=*:*&amp;fq={!geofilt pt=52.14,21.10 sfield=location d=50}</em> zwróci nam dokumenty, które zawierają się w odległości 50km od podanego punktu. Więcej o tym parserze można przeczytać na wiki Solr pod adresem: <a href="http://wiki.apache.org/solr/SpatialSearch#geofilt_-_The_distance_filter">http://wiki.apache.org/solr/SpatialSearch#geofilt_-_The_distance_filter</a>.</p>
<h3>Spatial Box Query Parser &#8211; bbox</h3>
<p>Kolejny query parser umożliwiający zawężanie dokumentów na podstawie ich lokalizacji. W odróżnieniu od parsera <em>geofilt</em> parser <em>bbox</em> jest mniej wymagający pod względem mocy obliczeniowej, aczkolwiek może zwrócić dokument, który będzie znajdował się poza dokładnie zdefiniowanym okręgiem (ze względu na przybliżenia obliczeń). Przykładowe zapytanie wykorzystujące ten parser może wyglądać następująco: <em>q=*:*&amp;fq={!bbox pt=52.14,21.10 sfield=location d=50}</em>.&nbsp;Więcej o tym parserze można przeczytać na wiki Solr pod adresem <a href="http://wiki.apache.org/solr/SpatialSearch#bbox_-_Bounding-box_filter">http://wiki.apache.org/solr/SpatialSearch#bbox_-_Bounding-box_filter</a>.</p>
<h3>Join Query Parser &#8211; join</h3>
<p>Parser umożliwiający tworzenie zapytań o dokumenty, które są zależne od innych dokumentów, czyli z wykorzystaniem joinów. Możliwe są połączenia zarówno w ramach pojedynczego rdzenia, jak i różnych rdzeni. Przykładowe zapytanie może wyglądać następująco: <em>q={!join from=parent to=id}color:Yellow</em>. Więcej przykładów oraz trochę dokładniejszy opis można znaleźć wśród wcześniejszych artykułów, np. tutaj: <a title="Czekając na 4.0: Solr-2272, czyli Solr i funkcjonlaność Join" href="http://solr.pl/2011/02/21/czekajac-na-4-0-solr-2272-czyli-solr-i-funkcjonlanosc-join/">http://solr.pl/2011/02/21/czekajac-na-4-0-solr-2272-czyli-solr-i-funkcjonlanosc-join/</a>.</p>
<h3>Surround Query Parser &#8211; surround</h3>
<p>Parser, który jest dostępny w ramach dodatkowych bibliotek do Solr (można o nim przeczytać więcej na: <a href="http://wiki.apache.org/solr/SurroundQueryParser">http://wiki.apache.org/solr/SurroundQueryParser)</a>. Postaramy się w nabliższych tygodniach napisać o nim więcej &#8211; generalne pozwala na wyszukiwanie informacji z uwzględnieniem pozycji.</p>
<h3>Switch Query Parser &#8211; switch</h3>
<p>Idea działania tego parsera jest dość prosta &#8211; umożliwić przetwarzanie prostego warunku po stronie Solr i przekazanie go jako podzapytania. Przykład wykorzystania oraz więcej o tym parserze można znaleźć tutaj: <a title="Switch query parser – szybkie spojrzenie" href="http://solr.pl/2013/06/03/switch-query-parser-szybkie-spojrzenie/">http://solr.pl/2013/06/03/switch-query-parser-szybkie-spojrzenie/</a>.</p>
<h3>Max Score Query Parser &#8211; maxscore</h3>
<p>Bardzo podobny (jeżeli chodzi o parametry) parser do domyślnego Lucene query parsera. Różnica w działaniu polega na wyliczaniu <em>score</em> dokumentów. W przypadku max score query parsera, dokumenty otrzymują <em>score</em> równy najbardziej znaczącemu elementowi w zapytaniu. Dodatkowo, mamy możliwość zmiany tego zachowania poprzez przekazanie parametru <em>tie</em> (domyślnie <em>0.0</em>). W przypadku przekazania <em>tie=0.0</em>, dokument otrzyma <em>score</em>, taki jak najbardziej znaczący element zapytania, jeżeli przekażemy <em>tie=1.0</em>, to <em>score</em> dokumentu będzie sumą wszystkich elementów wpływających na&nbsp;<em>score</em>. Przykładowe zapytanie może wyglądać następująco: <em>q=potter {!maxscore v=&#8217;harry&#8217;}</em>.&nbsp;<em></em>Więcej o parametrze <em>tie</em> można przeczytać tutaj: <a title="Do czego może przydać się tie w Dismax’ie ?" href="http://solr.pl/2012/02/06/do-czego-moze-przydac-sie-tie-w-dismaxie/">http://solr.pl/2012/02/06/do-czego-moze-przydac-sie-tie-w-dismaxie/</a>.</p>
<h3>Krótkie podsumowanie</h3>
<p>Jak widać, Solr dostarcza nam naprawdę różnorodne i ciekawe parsery zapytań do wykorzystania. Za ich pomocą możemy stworzyć skomplikowane zapytania, które wykorzystają dużą część funkcjonalności Lucene. Należy jednak pamiętać, że im bardziej skomplikowane zapytanie, tym więcej mocy obliczeniowej będzie potrzebować Solr, aby je wykonać &#8211; warto o tym pamiętać przy konstrukcji tych bardziej skomplikowanych.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://solr.pl/2013/08/19/solr-i-dostepne-query-parsery/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Switch query parser &#8211; szybkie spojrzenie</title>
		<link>https://solr.pl/2013/06/03/switch-query-parser-szybkie-spojrzenie/</link>
					<comments>https://solr.pl/2013/06/03/switch-query-parser-szybkie-spojrzenie/#respond</comments>
		
		<dc:creator><![CDATA[Rafał Kuć]]></dc:creator>
		<pubDate>Mon, 03 Jun 2013 10:12:33 +0000</pubDate>
				<category><![CDATA[Solr]]></category>
		<category><![CDATA[parser]]></category>
		<category><![CDATA[query]]></category>
		<category><![CDATA[query praser]]></category>
		<category><![CDATA[solr]]></category>
		<category><![CDATA[switch]]></category>
		<guid isPermaLink="false">http://sematext.solr.pl/?p=513</guid>

					<description><![CDATA[Ilość dostępnych query parserów w Solr zawsze mnie zadziwiała. Czy jest tu ktoś kto jest w stanie wymienić je wszystkie? Jednak w dzisiejszym wpisie nie będziemy się przyglądać wszystkim parserom, ale jednemu konkretnemu o nazwie SwitchQueryParser wprowadzonemu w Solr 4.2.]]></description>
										<content:encoded><![CDATA[<p>Ilość dostępnych query parserów w Solr zawsze mnie zadziwiała. Czy jest tu ktoś kto jest w stanie wymienić je wszystkie? Jednak w dzisiejszym wpisie nie będziemy się przyglądać wszystkim parserom, ale jednemu konkretnemu o nazwie <em>SwitchQueryParser</em> wprowadzonemu w Solr 4.2.</p>
<p><span id="more-513"></span></p>
<h3>Idea działania</h3>
<p>Idea działania jest dość prosta &#8211; umożliwić przetwarzanie prostego warunku po stronie Solr i przekazanie do jako podzapytanie. Na przykład, wyobraźmy sobie, że mamy aplikację, która rozumie cztery wartości pola <em>priceRange</em>:</p>
<ul>
<li><em>cheap</em> &#8211; w przypadku kiedy cena produktu, zapisana w polu <em>price</em>, jest niższa, niż 10$,</li>
<li><em>average</em> &#8211; w przypadku kiedy cena produktu jest pomiędzy 10, a 30$,</li>
<li><em>expensive</em> &#8211; w przypadku kiedy cena produktu jest wyższa niż 30$,</li>
<li><em>all</em> &#8211; w przypadku kiedy chcemy pokazać wszystkie produkty, bez względu na cenę</li>
</ul>
<p>Chcielibyśmy tę logikę zaszyć w Solr, aby nie było konieczności zmian po stronie aplikacji za każdym razem kiedy chcemy zmienić powyższe warunki. W tym właśnie celu wykorzystamy <em>SwitchQueryParser</em>.</p>
<h3>Nasze zapytanie</h3>
<p>Załóżmy, że nasza aplikacja jest w stanie zadać następujące zapytanie:
</p>
<pre class="brush:bash">http://localhost:8983/solr/collection1/price?q=*:*&amp;priceRange=cheap</pre>
<p>A zatem chcielibyśmy, aby na powyższe zapytanie Solr zwrócił wszystkie dokumenty (<em>q=*:*</em>), ale zawężone do tych posiadających cenę niższą niż 10$ (parameter <em>priceRange=cheap</em>).</p>
<h3>Konfiguracja Solr</h3>
<p>Oczywiście nie chcemy konfiguracji naszych zakresów pola <em>price</em> wysyłać w zapytaniu, bo nie miałoby to większego sensu. My zdecydowaliśmy się stworzyć nowy SearchHandler o nazwie /<em>price</em> z następującą konfiguracją (dodajemy go do pliku <em>solrconfig.xml</em>):
</p>
<pre class="brush:xml">&lt;requestHandler name="/price"&gt;
 &lt;lst name="defaults"&gt;
  &lt;str name="priceRange"&gt;all&lt;/str&gt;
 &lt;/lst&gt;
 &lt;lst name="appends"&gt;
  &lt;str name="fq"&gt;{!switch case.all='price:[* TO *]' case.cheap='price:[0 TO 10]' case.average='price:[10 TO 30]' case.expensive='price:[30 TO *]' v=$priceRange}&lt;/str&gt;
 &lt;/lst&gt;
&lt;/requestHandler&gt;</pre>
<p>Jak widać konfiguracja naszego SearchHandlera składa się z dwóch elementów. Po pierwsze w sekcji <em>defaults</em> zdefiniowaliśmy, iż parametr <em>priceRange</em> będzie domyślnie przyjmować wartość <em>all</em>. Dodatkowo zdefiniowaliśmy filtr&nbsp;(<em>fq</em>) działający w oparciu o <em>SwitchQueryParser</em> (<em>!switch</em>). Dla każdej z możliwych wartości parametru <em>priceRange</em> (<em>v=$priceRange</em>) zdefiniowaliśmy odpowiedni filtr wykorzystując wyrażenie <em>case.wartośćPolaPriceRange=filtr</em>. Zatem, kiedy wartość parametru <em>priceRange</em> w zapytaniu będzie wynosić <strong><em>cheap</em></strong> to filtr zdefiniowany przez <em>case.<strong>cheap</strong></em> będzie wykorzystany, jeżeli ta wartość będzie wynosić&nbsp;<strong>expensive</strong> to filtr zdefiniowany przez&nbsp;<em>case.<strong>expensive</strong></em> będzie wykorzystany, itd.</p>
<h3>O czym należy pamiętać</h3>
<p>Jest jedna, ważna rzecz o której należy pamiętać w przypadku korzystania z opisywanego parsera. W naszym przypadku podanie do parametru <em>priceRange</em> wartości innej, niż 4 powyżej wymienione będzie skutkowało błędem Solr.</p>
<h3>Kilka słów podsumowania</h3>
<p>Moim skromnym zdaniem <em>SwitchQueryParser</em> pomimo tego, że nie będzie stosowany przez większość użytkowników Solr wydaje się być fajnym pomysłem. Biorąc pod uwagę to, że pozwala ukryć przed aplikacją bardzo prostą logikę oraz to, że jest dość prosty, a co za tym nie wymagający jeżeli chodzi o zasoby, na pewno znajdą się użytkownicy, którym ten parser ułatwi pracę <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/1f642.png" alt="🙂" class="wp-smiley" style="height: 1em; max-height: 1em;" /></p>
]]></content:encoded>
					
					<wfw:commentRss>https://solr.pl/2013/06/03/switch-query-parser-szybkie-spojrzenie/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Solr i PhraseQuery, czyli różne sposoby premiowania fraz</title>
		<link>https://solr.pl/2010/07/14/solr-i-phrasequery-czyli-rozne-sposoby-premiowania-fraz/</link>
					<comments>https://solr.pl/2010/07/14/solr-i-phrasequery-czyli-rozne-sposoby-premiowania-fraz/#comments</comments>
		
		<dc:creator><![CDATA[Rafał Kuć]]></dc:creator>
		<pubDate>Wed, 14 Jul 2010 07:39:55 +0000</pubDate>
				<category><![CDATA[Solr]]></category>
		<category><![CDATA[dismax]]></category>
		<category><![CDATA[edismax]]></category>
		<category><![CDATA[fraza]]></category>
		<category><![CDATA[parser]]></category>
		<category><![CDATA[phrase]]></category>
		<category><![CDATA[phrase query]]></category>
		<category><![CDATA[solr]]></category>
		<category><![CDATA[standard]]></category>
		<guid isPermaLink="false">http://sematext.solr.pl/?p=10</guid>

					<description><![CDATA[W większości wdrożeń Lucene/Solr z którymi miałem do czynienia prędzej, czy później pojawiał się problem tuningu jakości wyników wyszukiwania. Jednym z prostszych sposób zwiększenia zadowolenia użytkowników z wyników wyszukiwania, a tym samym zadowolenia nas samych i naszych pracodawców jest premiowanie]]></description>
										<content:encoded><![CDATA[<p>W większości wdrożeń Lucene/Solr z którymi miałem do czynienia prędzej, czy później pojawiał się problem tuningu jakości wyników wyszukiwania. Jednym z prostszych sposób zwiększenia zadowolenia użytkowników z wyników wyszukiwania, a tym samym zadowolenia nas samych i naszych pracodawców jest premiowanie fraz. Mając do wyboru trzy najpopularniejsze parsery zapytań oraz szereg parametrów wpływających na ich zachowanie postanowiłem sprawdzić, jak radzi sobie Solr z&nbsp; premiowaniem fraz znalezionych w dokumentach na etapie wyszukiwania oraz jaki wpływ mają te funkcjonalności na wydajność.</p>
<p><span id="more-10"></span></p>
<p>W obecnym trunk`u Solr, mamy dostępne trzy parsery zapytań:</p>
<ul>
<li>Standard Solr Query Parser, czyli domyślny parser dla Solr oparty na domyślnym parserze zapytań w Lucene</li>
<li>DisMax Query Parser</li>
<li>Extended DisMax Query Parser</li>
</ul>
<p>Każdy z wyżej wymienionych parserów ma inne możliwości jeżeli chodzi premiowanie fraz na etapie zapytań. W tym wpisie nie zajmuję się kwestiami premiowania bliskości słów na etapie indeksowania, o tym napiszę innym razem. A więc wracając do parserów.</p>
<p><strong>Standard Solr Query Parser<br />
</strong></p>
<p>Parser oparty o standardowy parser zapytań Lucene oraz rozszerzający jego możliwości. Możliwości co do premiowania fraz nie są duże. Załóżmy, iż nasz system obsługuje dużą księgarnię internetową, gdzie użytkownicy są mogą oceniać książki, zostawiać komentarze, czy dyskutować na temat książek na forach, a my indeksujemy wszystkie te dane oraz później prezentujemy je w ramach wyników wyszukiwania. Możemy założyć także, iż użytkownik wpisując w pole wyszukiwania &#8222;Java wzorce projektowe&#8221; szuka książek dotyczących wzorców projektowych z przykładami w języku Java i takie książki chcemy mu pokazać. Żaden problem, zadajemy do Solr zapytanie:</p>
<p><code>q=java+wzorce+projektowe</code></p>
<p>I otrzymujemy listę książek. Można spocząć na laurach i stwierdzić, że nasza wyszukiwarka zachowuje się świetnie i chcemy nic więcej poprawiać. Ja jednak dodałbym do tego zapytania kolejną część &#8211; premiowanie fraz, tak aby książki, które w przeszukiwanych polach posiadają odpowiednią frazę (czyli tak naprawdę w których słowa podane przez użytkownika występują obok siebie) były pozycjonowane na początku listy wyników. Zmodyfikowane zapytanie wyglądałoby tak:</p>
<p><code>q=java+wzorce+projektowe+OR+"java+wzorce+projektowe"^30</code></p>
<p>Dodając dodatkowy fragment (<em>+OR+&#8221;java+wzorce+projektowe&#8221;^30</em>) na pierwszych miejscach listy wyników wyszukiwania dostaniemy dokumenty, które nie tylko mają w polach wyszukiwania termy (wyrazy) podane przez użytkownika, ale w tych polach mają te termy umiejscowione obok siebie. A tak wygląda zapytanie wygenerowane do Lucene:
</p>
<pre class="brush:xml">&lt;str name="parsedquery"&gt;name:java name:wzorce name:projektowe PhraseQuery(name:"java wzorce projektowe"^30.0)&lt;/str&gt;
&lt;str name="parsedquery_toString"&gt;name:java name:wzorce name:projektowe name:"java wzorce projektowe"^30.0&lt;/str&gt;</pre>
<p>Wyniki wyszukiwania dla tak skonstruowanego zapytania przedstawiają się następująco:
</p>
<pre class="brush:xml">&lt;?xml version="1.0" encoding="UTF-8"?&gt;
&lt;response&gt;
&lt;lst name="responseHeader"&gt;
   &lt;int name="status"&gt;0&lt;/int&gt;
   &lt;int name="QTime"&gt;0&lt;/int&gt;
   &lt;lst name="params"&gt;
      &lt;str name="q"&gt;java wzorce projektowe OR "java wzorce projektowe"^30&lt;/str&gt;
      &lt;str name="fl"&gt;score,id,name&lt;/str&gt;
   &lt;/lst&gt;
&lt;/lst&gt;
&lt;result name="response" numFound="5" start="0" maxScore="1.2399161"&gt;
   &lt;doc&gt;
      &lt;float name="score"&gt;1.2399161&lt;/float&gt;
      &lt;str name="id"&gt;1&lt;/str&gt;
      &lt;str name="name"&gt;Java wzorce projektowe&lt;/str&gt;
   &lt;/doc&gt;
   &lt;doc&gt;
      &lt;float name="score"&gt;0.010219089&lt;/float&gt;
      &lt;str name="id"&gt;2&lt;/str&gt;
      &lt;str name="name"&gt;Wzorce projektowe java&lt;/str&gt;
   &lt;/doc&gt;
   &lt;doc&gt;
      &lt;float name="score"&gt;0.010219089&lt;/float&gt;
      &lt;str name="id"&gt;3&lt;/str&gt;
      &lt;str name="name"&gt;Wzorce java projektowe&lt;/str&gt;
   &lt;/doc&gt;
   &lt;doc&gt;
      &lt;float name="score"&gt;0.010219089&lt;/float&gt;
      &lt;str name="id"&gt;4&lt;/str&gt;
      &lt;str name="name"&gt;Projektowe wzorce java&lt;/str&gt;
   &lt;/doc&gt;
   &lt;doc&gt;
      &lt;float name="score"&gt;0.010219089&lt;/float&gt;
      &lt;str name="id"&gt;5&lt;/str&gt;
      &lt;str name="name"&gt;Projektowe java wzorce&lt;/str&gt;
   &lt;/doc&gt;
&lt;/result&gt;
&lt;/response&gt;</pre>
<p><strong>DisMax Query Parser</strong></p>
<p>Oprócz możliwości skonstruowania zapytania w taki sposób, jak opisany powyżej mamy możliwość wykorzystania parametru <strong>pf</strong> oraz modyfikacji jego zachowania za pomocą parametru <strong>ps</strong>. Parametr <strong>pf</strong> przekazuje informacje o tym, w jakich polach mają być identyfikowane frazy. Parametru tego używa się w sposób analogiczny do parametru <strong>qf</strong> określając listę pól w jakich mają być identyfikowane frazy. Dodatkowo, należy dla każdego z podanych pól określić odpowiednie wartości podbicia (<em>boost</em>), bo jak wiemy domyślnym podbiciem jest 1. Zapytanie z wykorzystaniem DisMax`a wyglądałoby następująco:<br />
<code>q=java+wzorce+projektowe&amp;defType=dismax&amp;qf=name&amp;pf=name^30&amp;ps=0</code>
</p>
<p style="text-align: left;">Natomiast zapytanie przekazane do Lucene wygląda w sposób następujący:</p>
<pre class="brush:xml">&lt;str name="parsedquery"&gt;+((DisjunctionMaxQuery((name:java)) DisjunctionMaxQuery((name:wzorce)) DisjunctionMaxQuery((name:projektowe)))~3) DisjunctionMaxQuery((name:"java wzorce projektowe"^30.0))&lt;/str&gt;
&lt;str name="parsedquery_toString"&gt;+(((name:java) (name:wzorce) (name:projektowe))~3) (name:"java wzorce projektowe"^30.0)&lt;/str&gt;</pre>
<p>Wyniki dla tak skonstruowanego zapytania przedstawiają się następująco:
</p>
<pre class="brush:xml">&lt;?xml version="1.0" encoding="UTF-8"?&gt;
&lt;response&gt;
&lt;lst name="responseHeader"&gt;
   &lt;int name="status"&gt;0&lt;/int&gt;
   &lt;int name="QTime"&gt;0&lt;/int&gt;
   &lt;lst name="params"&gt;
      &lt;str name="pf"&gt;name^30&lt;/str&gt;
      &lt;str name="fl"&gt;id,name,score&lt;/str&gt;
      &lt;str name="q"&gt;java wzorce projektowe&lt;/str&gt;
      &lt;str name="qf"&gt;name&lt;/str&gt;
      &lt;str name="defType"&gt;dismax&lt;/str&gt;
      &lt;str name="ps"&gt;0&lt;/str&gt;
   &lt;/lst&gt;
&lt;/lst&gt;
&lt;result name="response" numFound="5" start="0" maxScore="1.2399161"&gt;
   &lt;doc&gt;
      &lt;float name="score"&gt;1.2399161&lt;/float&gt;
      &lt;str name="id"&gt;1&lt;/str&gt;
      &lt;str name="name"&gt;Java wzorce projektowe&lt;/str&gt;
   &lt;/doc&gt;
   &lt;doc&gt;
      &lt;float name="score"&gt;0.013625451&lt;/float&gt;
      &lt;str name="id"&gt;2&lt;/str&gt;
      &lt;str name="name"&gt;Wzorce projektowe java&lt;/str&gt;
   &lt;/doc&gt;
   &lt;doc&gt;
      &lt;float name="score"&gt;0.013625451&lt;/float&gt;
      &lt;str name="id"&gt;3&lt;/str&gt;
      &lt;str name="name"&gt;Wzorce java projektowe&lt;/str&gt;
   &lt;/doc&gt;
   &lt;doc&gt;
      &lt;float name="score"&gt;0.013625451&lt;/float&gt;
      &lt;str name="id"&gt;4&lt;/str&gt;
      &lt;str name="name"&gt;Projektowe wzorce java&lt;/str&gt;
   &lt;/doc&gt;
   &lt;doc&gt;
      &lt;float name="score"&gt;0.013625451&lt;/float&gt;
      &lt;str name="id"&gt;5&lt;/str&gt;
      &lt;str name="name"&gt;Projektowe java wzorce&lt;/str&gt;
   &lt;/doc&gt;
&lt;/result&gt;
&lt;/response&gt;</pre>
<p>Warto zauważyć, iż kolejność wyników dla obu metod jest taka sama. Wynika to z tego, iż fraza została zidentyfikowana tylko w przypadku dokumentu z identyfikatorem 1. Wartość <em>score</em> dla tego dokumentu w obu przypadkach jest taka sama. Natomiast dokumenty znajdujące się na pozycjach od 2 do 4 mają w ramach danej metody dokładnie taką samą wartość <em>score</em> ze względu na zidentyfikowanie trzech termów i dokładnie taką samą długość pola <em>name</em>. Oczywiście istnieją różnice w wartości <em>score</em> tych dokumentów pomiędzy metodami, ale wynika to z różnic w składaniu zapytań.</p>
<p>Użyłem jednak współczynnika <strong>ps=0</strong> nie wspominając zupełnie o tym co oznacza i do czego służy. W przypadku korzystania z parametru <strong>pf</strong> (oraz pf2, ale o tym później) parametr <strong>ps</strong> oznacza tzw. <em>Phrase Slop</em>, czyli maksymalną odległość słów od siebie, aby tworzyły frazę. Na przykład <strong>ps=2</strong> będzie oznaczało, iż słowa mogą być maksymalnie dwie pozycje od siebie, aby tworzyły frazę. Należy jednak pamiętać, iż pomimo tego, że zarówno &#8222;Java przykładowe wzorce projektowe&#8221;, jak i &#8222;Java wzorce projektowe&#8221; stworzą frazę, jednak dokument o tytule &#8222;Java wzorce projektowe&#8221; będzie posiadał większy <em>score</em> pomimo ustawienia ps=2, ze względu na to, że termy położone są bliżej siebie.</p>
<p>Omówiliśmy już dwa przypadki premiowania fraz. Został nam ostatni opierający się na tzw. <em>Enhanced Term Proximity Boosting</em>, czyli metodzie premiowania nie tylko całych fraz, ale także ich poszczególnych części. Funkcjonalność tą oferuje jednak tylko i wyłączenie:</p>
<p><strong>Extended DisMax Query Parser</strong></p>
<p>Niestety bez skorzystania z trunk`a lub przeniesienia kawałka kodu nie ma możliwości skorzystania z eDisMax`a.</p>
<p>Zapytanie z eDisMax`em wyglądałoby następująco:</p>
<p><code>q=java+wzorce+projektowe&amp;defType=edismax&amp;qf=name&amp;pf2=name^30&amp;ps=0</code></p>
<p>Powyższe zapytanie, tworzy następujące zapytania do Lucene:
</p>
<pre class="brush:xml">&lt;str name="parsedquery"&gt;+(DisjunctionMaxQuery((name:java)) DisjunctionMaxQuery((name:wzorce)) DisjunctionMaxQuery((name:projektowe))) (DisjunctionMaxQuery((name:"java wzorce"^30.0)) DisjunctionMaxQuery((name:"wzorce projektowe"^30.0)))&lt;/str&gt;
&lt;str name="parsedquery_toString"&gt;+((name:java) (name:wzorce) (name:projektowe)) ((name:"java wzorce"^30.0) (name:"wzorce projektowe"^30.0))&lt;/str&gt;</pre>
<p>Jak widać oprócz standardowych DisjunctionMaxQuery charakterystycznych dla DisMax`a (a tym samym dla jego rozszerzonej wersji) które wyszukują poszczególne termy przekazane do parametru <strong>q</strong> stworzone zostały także dwa dodatkowe zapytania, które odpowiadają za funkcjonalność <em>enhanced term proximity boosting</em>. Polega ona na stworzeniu par ze słów występujących obok siebie. W opisywanym testowym przypadku stworzone zostały pary &#8222;java wzorce&#8221; oraz &#8222;wzorce projektowe&#8221;. Jak można się domyślić najbardziej znaczącymi dokumentami na liście wyników, będą dokumenty posiadające obie wygenerowane pary, kolejne dokument będą posiadały jedną z par, a kolejne nie będą posiadały żadnej. Na potwierdzenie przedstawiam wynik zadania powyższego zapytania do Solr:
</p>
<pre class="brush:xml">&lt;?xml version="1.0" encoding="UTF-8"?&gt;
&lt;response&gt;
&lt;lst name="responseHeader"&gt;
   &lt;int name="status"&gt;0&lt;/int&gt;
   &lt;int name="QTime"&gt;0&lt;/int&gt;
   &lt;lst name="params"&gt;
      &lt;str name="fl"&gt;id,name,score&lt;/str&gt;
      &lt;str name="q"&gt;java wzorce projektowe&lt;/str&gt;
      &lt;str name="qf"&gt;name&lt;/str&gt;
      &lt;str name="pf2"&gt;name^30&lt;/str&gt;
      &lt;str name="defType"&gt;edismax&lt;/str&gt;
      &lt;str name="ps"&gt;0&lt;/str&gt;
   &lt;/lst&gt;
&lt;/lst&gt;
&lt;result name="response" numFound="5" start="0" maxScore="1.1705827"&gt;
   &lt;doc&gt;
      &lt;float name="score"&gt;1.1705827&lt;/float&gt;
      &lt;str name="id"&gt;1&lt;/str&gt;
      &lt;str name="name"&gt;Java wzorce projektowe&lt;/str&gt;
   &lt;/doc&gt;
   &lt;doc&gt;
      &lt;float name="score"&gt;0.3034844&lt;/float&gt;
      &lt;str name="id"&gt;2&lt;/str&gt;
      &lt;str name="name"&gt;Wzorce projektowe java&lt;/str&gt;
   &lt;/doc&gt;
   &lt;doc&gt;
      &lt;float name="score"&gt;0.3034844&lt;/float&gt;
      &lt;str name="id"&gt;5&lt;/str&gt;
      &lt;str name="name"&gt;Projektowe java wzorce&lt;/str&gt;
   &lt;/doc&gt;
   &lt;doc&gt;
      &lt;float name="score"&gt;0.014451639&lt;/float&gt;
      &lt;str name="id"&gt;3&lt;/str&gt;
      &lt;str name="name"&gt;Wzorce java projektowe&lt;/str&gt;
   &lt;/doc&gt;
   &lt;doc&gt;
      &lt;float name="score"&gt;0.014451639&lt;/float&gt;
      &lt;str name="id"&gt;4&lt;/str&gt;
      &lt;str name="name"&gt;Projektowe wzorce java&lt;/str&gt;
   &lt;/doc&gt;
&lt;/result&gt;
&lt;/response&gt;</pre>
<p>Jak widać pierwszy dokument nie zmienił swojej pozycji i jest to dalej dokument o identyfikatorze 1. Natomiast na drugim i trzecim miejscu znajdują się dokumenty, które mają jedną z wygenerowanych przez parser par słów. Co za tym idzie dokumenty o identyfikatorach 2 i 5 mają tą samą wartość współczynnika <em>score</em>. Listę wyników zamykają dokumenty posiadające jedynie termy wpisane przez użytkownika. Na uwagę zasługuje również fakt, iż tak samo jak w przypadku pierwszych dwóch przykładów, tak i eDisMax wyliczył inną wartość maksymalną współczynnika <em>score</em> dla wynikowego zbioru dokumentów &#8211; spowodowane jest to dokładnie tym samym co w poprzednim przykładzie, a mianowicie zapytaniem wygenerowanym przez parser i złożonym do Lucene.</p>
<p><strong>Wydajność</strong></p>
<p>W każdym wypadku należy wziąć pod uwagę, jaki poszczególne funkcjonalności będą miały wpływ na wydajność aplikacji opartej o Solr. W tym celu postanowiłem zrobić prosty test wydajnościowy. Założenia testu są dość proste &#8211; indeksuję dane z wikipedii, i dla każdej z metod tworze zapytanie dla fraz składających się z dwóch do sześciu tokenów. Zapytania zadaje przy wyłączonych cache`ach, za każdym razem restartując Solr. Wynik to średnia arytmetyczna z 10 powtórzeń każdego z testów. Przed wynikami testu, kilka słów o samym indeksie:</p>
<ul>
<li>Ilość dokumentów w indeksie: 1.177.239</li>
<li>Ilość segmentów: 1</li>
<li>Ilość termów:&nbsp; 18.506.646</li>
<li>Ilość par term/dokument: 230.297.212</li>
<li>Ilość tokenów: 418.135.268</li>
<li>Wielkość indeksu: 4.6GB (zoptymalizowany)</li>
<li>Wersja Lucene wykorzystana do zbudowania: 4.0-dev 964000</li>
</ul>
<p>Frazy jakie wybierane były dla każdej iteracji testu:</p>
<ul>
<li>Iteracja I: &#8222;wielki piotr&#8221;</li>
<li>Iteracja II: &#8222;druga wojna światowa&#8221;</li>
<li>Iteracja III: &#8222;druga wojna światowa niemcy&#8221;</li>
<li>Iteracja IV: &#8222;czas zmian reformacja w polsce&#8221;</li>
<li>Iteracja V: &#8222;zmiana czasu letniego na czas zimowy&#8221;</li>
</ul>
<p>Same wyniki przedstawiają się następująco:</p>
[table “1” not found /]<br />

<p>Należy pamiętać, iż przedstawione wyniki dotyczą tylko i wyłącznie kwestii wydajnościowej i nie są sugestią której metody premiowania fraz należy używać. Wybór metody to kwestia wymagań i danego wdrożenia. Co do samych wyników, widać, iż zgodnie z przypuszczeniami najszybsza jest metoda druga, czyli wykorzystanie <em>term proximity boost</em> i parsera DisMax, który okazuje się szybszy zarówno od Standard Query Parsera, jak i od eDisMax`a.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://solr.pl/2010/07/14/solr-i-phrasequery-czyli-rozne-sposoby-premiowania-fraz/feed/</wfw:commentRss>
			<slash:comments>2</slash:comments>
		
		
			</item>
	</channel>
</rss>
