Prosta wyszukiwarka zdjęć

Read full article | No comments yet.

Mieliśmy niedawno okazję pomocy przy tworzeniu niekomercyjnego projektu, którego częścią była wyszukiwarka. Jednym z założeń, trochę pobocznych, było wyszukiwanie zdjęć, aby korzystający mogli bardzo szybko dotrzeć do interesujących ich obrazów. Wyszukiwarka miała działać w oparciu o meta dane zapisane w plikach JPEG, tak więc wybór był jasny – Apache Solr oraz Apache Tika.

More...

Identyfikacja języka dokumentu

Read full article | 1 Comment

Jedną z funkcjonalności najnowszej wersji Solr (czyli 3.5) jest możliwość identyfikacji języka indekowanego dokumentu na etapie indeksowania. Dzisiejszy wpis postanowiłem poświęcić tej funkcjonalności i przyjrzeć się jak tym razem Apache Solr współgra z Apache Tika.

More...

Indeksowanie plików doc, pdf itp, czyli integracja Solr z Tika

Read full article | No comments yet.

W poprzednim artykule podaliśmy podstawowe informację, jak umożliwić przeszukiwanie  zawartości plików binarnych, czyli m.in dokumentów MS Word, PDF czy LibreOffice. Dziś zrobimy to samo, wykorzystując Data Import Handler. Ponieważ parę dni temu pojawiła się nowa wersja serwera SOLR (3.1), poniższe wskazówki bazują na tej wersji. Do prezentacji wykorzystano aplikację „example” – wszystkie poniższe zmiany odnoszą […]

More...

Integracja Solr z Tika (cz. 1 – podstawy)

Read full article | 1 Comment

Indeksowanie tzw, „rich documents”, czyli plików w formacie pdf, doc, rtf i tak dalej (lub też plików binarnych) zawsze wymagało pewnej pracy po stronie dewelopera w celu wyciągnięcia interesujących go treści, a następnie przygotowanie ich w formacie zrozumiałym dla wyszukiwarki, w tym wypadku dla Solr. Aby zminimalizować tą pracę postanowiłem przyjrzeć się Apache Tika i […]

More...

Solr: Importowanie danych

Read full article | No comments yet.

Solr nie jest przesadnie przyjazny początkującym użytkownikom. Przygotowanie dobrej schemy wymaga pewnego doświadczenia. Zakładając, że mamy już przygotowaną konfigurację, pozostaje nam udostępnienie swoich danych serwerowi wyszukiwania oraz zadbanie o możliwość aktualizacji danych.

More...

Lucene Eurocon 2010

Read full article | No comments yet.

Po ogłoszeniu przez Apache Software Fundation zamiaru rezygnacji z organizacji ApacheCon na starym kontynencie nie zostało żadnej konferencji poświęconej projektom spod znaku Apache. Przyroda nie lubi pustki, a co za tym idzie firma Lucid Imagination postanowiła, przy współpracy ze sponsorami, zorganizować w Pradze pierwszą konferencję poświęconą w całości tematom związanym z Lucene i Solr – […]

More...