<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>błędy &#8211; Solr.pl</title>
	<atom:link href="https://solr.pl/tag/bledy/feed/" rel="self" type="application/rss+xml" />
	<link>https://solr.pl</link>
	<description>All things to be found - Blog related to Apache Solr &#38; Lucene projects - https://solr.apache.org</description>
	<lastBuildDate>Tue, 10 Nov 2020 09:07:21 +0000</lastBuildDate>
	<language>pl-PL</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9</generator>
	<item>
		<title>5 grzechów podczas projektowania indeksu Solr</title>
		<link>https://solr.pl/2010/08/30/5-grzechow-podczas-projektowania-indeksu-solr/</link>
					<comments>https://solr.pl/2010/08/30/5-grzechow-podczas-projektowania-indeksu-solr/#respond</comments>
		
		<dc:creator><![CDATA[Rafał Kuć]]></dc:creator>
		<pubDate>Mon, 30 Aug 2010 13:04:31 +0000</pubDate>
				<category><![CDATA[Solr]]></category>
		<category><![CDATA[atrybut]]></category>
		<category><![CDATA[atrybuty]]></category>
		<category><![CDATA[błędy]]></category>
		<category><![CDATA[inddex]]></category>
		<category><![CDATA[indeks]]></category>
		<category><![CDATA[indeksowanie]]></category>
		<category><![CDATA[schema]]></category>
		<category><![CDATA[schema.xml]]></category>
		<category><![CDATA[solr]]></category>
		<category><![CDATA[struktura]]></category>
		<category><![CDATA[struktura indeksu]]></category>
		<guid isPermaLink="false">http://sematext.solr.pl/?p=28</guid>

					<description><![CDATA[Zgodnie z obietnicą złożoną we wpisie na temat pliku schema.xml prezentujemy dzisiaj wpis dotyczący najczęściej popełnianych błędów podczas projektowania indeksu Solr, czyli podczas tworzenia i modyfikowania pliku schema.xml dla naszego wdrożenia. Zapraszam do dalszej lektury. Każdy z nas wie co]]></description>
										<content:encoded><![CDATA[<p>Zgodnie z obietnicą złożoną we wpisie na temat pliku <em>schema.xml</em> prezentujemy dzisiaj wpis dotyczący najczęściej popełnianych błędów  podczas projektowania indeksu Solr, czyli podczas tworzenia i  modyfikowania pliku <em>schema.xml</em> dla naszego wdrożenia. Zapraszam do dalszej lektury.</p>
<p><span id="more-28"></span></p>
<p>Każdy z nas wie co to jest plik<em> schema.xml</em> i do czego służy  (jeżeli nie, to zapraszam do lektury wpisu znajdującego się pod adresem:  <a href="http://solr.pl/2010/08/16/co-to-jest-schema/" target="_blank" rel="noopener noreferrer">http://solr.pl/2010/08/16/co-to-jest-schema/</a>). Jakie błędy najczęściej  popełniamy tworząc lub uaktualniając ten plik ? Ja osobiście spotkałem  się z następującymi:</p>
<h3><strong>1. Śmietnik w konfiguracji </strong></h3>
<p>Pierwsza zasada jaką wyznaję to trzymanie pliku <em>schema.xml</em> w  najprostszej z możliwych postaci. Wiąże się z tym jedna bardzo ważna  sprawa &#8211; plik ten nie powinien być synonimem chaosu. Jednym słowem, nie  trzymajmy tak niepotrzebnych komentarzy, niepotrzebnych typów, pól i tak  dalej. Porządek w strukturze indeksu ułatwia nam nie tylko utrzymywanie  tego pliku i jego modyfikacje, ale przede wszystkim upewnia nas, że nie  indeksujemy informacji, które są zbędne z punktu widzenia aplikacji  wykorzystującej Solr.</p>
<h3><strong>2. Kosmetyczne zmiany domyślnej konfiguracji</strong></h3>
<p>Ile z osób, które wykorzystuje Solr w swojej codziennej pracy brało domyślny plik <em>schema</em>.<em>xml</em> dostarczany w przykładowym wdrożeniu Solr i tylko nieznacznie  modyfikowało jego zawartość &#8211; na przykład zmieniając tylko nazwy pól ?  Sam powinienem podnieść rękę, bo sam kiedyś tak zrobiłem. Jest to dość  duży błąd według mnie. Ktoś może się zapytać dlaczego. Czy na pewno  robiąc wyszukiwanie w treściach napisanych w języku polskim potrzebujemy  na przykład angielskiego stemmingu ? Wydaje mi się, że jednak nie  potrzebujemy. Czy na pewno we wszystkich przypadkach potrzebujemy  przechowywać informacje o wektorach termów ?</p>
<h3><strong>3. Brak uaktualnień </strong></h3>
<p>Czasami zdarza mi się trafić na wdrożenia, gdzie wraz z uaktualnieniami wersji Solr nie uaktualnia się pliku <em>schema.xml</em>.  Jeżeli jest to świadoma decyzja, podyktowana np. kosztowną, bądź wręcz  niemożliwą ponowną indeksacją wszystkich danych, to rozumiem sytuację.  Są jednak przypadki kiedy uaktualnienie przyniosłoby same korzyści, a  środki jakie trzeba by było przeznaczyć na takie uaktualnienie są  minimalne (np. mało kosztowna reindeksacja, bądź niewielkie zmiany w  aplikacji). Nie bójmy się uaktualniać pliku <em>schema.xml</em> &#8211; czy chodzi to o aktualizację pól, aktualizację typów, czy dodanie nowszych rzeczy. Dobrym przykładem jest  tutaj migracja z Solr 1.3 na wersję 1.4 wprowadzającą duże zmiany  związane z typami liczbowymi, gdzie migracja na nowe typy skutkowała  naprawdę dużym wzrostem wydajności zapytań z nich korzystających (np.  zapytań wykorzystujących przedziały wartości).&nbsp; <strong><br />
</strong></p>
<h3><strong>4. &#8222;A może kiedyś się przyda&#8221;</strong></h3>
<p>Dodawanie nowych typów, nieusuwanie już niepotrzebnych, tak samo w przypadku pól, czy definicji <em>copyField</em>.  Wiem, to się kiedyś może jeszcze przydać, ale pamiętajmy, że każdy typ  to dodatkowa pamięć potrzebna Solr, każde pole to miejsce w indeksie,  tak samo jak każdy <em>copyField</em>. Moja drobna rada &#8211; jeżeli  przestajesz wykorzystywać typ, pole, czy cokolwiek innego co masz w  pliku konfiguracyjnym (nie tylko w <em>schema.xml</em>) po prostu usuń  to z tego pliku. Stosując tą zasadę przez cały cykl życia aplikacji  korzystającej z Solr będziesz zawsze mieć pewność, że indeks jest w  optymalnym stanie, a po kilku miesiącach od wdrożenia nie trzeba się  będzie zastanawiać i przekopywać przez kod aplikacji, aby sprawdzić czy  na pewno dane pole, czy typ jest wykorzystywany.</p>
<h3><strong>5. Atrybuty, atrybuty i jeszcze raz atrybuty</strong></h3>
<p>Przechowywanie  oryginalnych wartości, dodanie wektora termów i jego właściwości to  tylko przykłady, które mogą spowodować, mamy większy, niż wymaga tego  aplikacja, index. Większy index, mniejsza wydajność, przynajmniej w  niektórych wypadkach (np. w przypadku indeksowania). Warto więc  zastanowić się, czy na pewno potrzebujemy tych wszystkich informacji,  które każemy Solr wyliczać i przechowywać. Usunięcie niektórych,  oczywiście niepotrzebnych z naszego punktu widzenia informacji, może nas  miło zaskoczyć. Czasami warto spróbować <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/1f609.png" alt="😉" class="wp-smiley" style="height: 1em; max-height: 1em;" /> <strong><br />
</strong></p>
<p>Zapraszam do komentowania, ponieważ chętnie poczytam, na co jeszcze powinno się zwracać uwagę przy modyfikacji pliku <em>schema.xml</em>.</p>
<p>Na koniec, warto wspomnieć o artykule &#8222;<em>The Seven Deadly Sins of Solr</em>&#8221; opublikowanym na stronach LucidImagination pod adresem: <a href="http://www.lucidimagination.com/blog/2010/01/21/the-seven-deadly-sins-of-solr/" target="_blank" rel="noopener noreferrer">http://www.lucidimagination.com/blog/2010/01/21/the-seven-deadly-sins-of-solr/</a>. Opisuje on złe praktyki w trakcie pracy z Solr i zahacza także o temat plików konfiguracyjnych. Moim zdaniem ciekawa lektura. Polecam.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://solr.pl/2010/08/30/5-grzechow-podczas-projektowania-indeksu-solr/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
	</channel>
</rss>
