Prosta wyszukiwarka zdjęć

Mieliśmy niedawno okazję pomocy przy tworzeniu niekomercyjnego projektu, którego częścią była wyszukiwarka. Jednym z założeń, trochę pobocznych, było wyszukiwanie zdjęć, aby korzystający mogli bardzo szybko dotrzeć do interesujących ich obrazów. Wyszukiwarka miała działać w oparciu o meta dane zapisane w plikach JPEG, tak więc wybór był jasny – Apache Solr oraz Apache Tika.

Read more

Indeksowanie plików doc, pdf itp, czyli integracja Solr z Tika

W poprzednim artykule podaliśmy podstawowe informację, jak umożliwić przeszukiwanie  zawartości plików binarnych, czyli m.in dokumentów MS Word, PDF czy LibreOffice. Dziś zrobimy to samo, wykorzystując Data Import Handler. Ponieważ parę dni temu pojawiła się nowa wersja serwera SOLR (3.1), poniższe wskazówki bazują na tej wersji. Do prezentacji wykorzystano aplikację „example” – wszystkie poniższe zmiany odnoszą się właśnie do tej aplikacji.

Read more

Integracja Solr z Tika (cz. 1 – podstawy)

Indeksowanie tzw, „rich documents”, czyli plików w formacie pdf, doc, rtf i tak dalej (lub też plików binarnych) zawsze wymagało pewnej pracy po stronie dewelopera w celu wyciągnięcia interesujących go treści, a następnie przygotowanie ich w formacie zrozumiałym dla wyszukiwarki, w tym wypadku dla Solr. Aby zminimalizować tą pracę postanowiłem przyjrzeć się Apache Tika i integracji tej biblioteki z Solr.

Read more

Lucene Eurocon 2010

Po ogłoszeniu przez Apache Software Fundation zamiaru rezygnacji z organizacji ApacheCon na starym kontynencie nie zostało żadnej konferencji poświęconej projektom spod znaku Apache. Przyroda nie lubi pustki, a co za tym idzie firma Lucid Imagination postanowiła, przy współpracy ze sponsorami, zorganizować w Pradze pierwszą konferencję poświęconą w całości tematom związanym z Lucene i Solr – Lucene EuroCon. Ze względu na to, że mieliśmy przyjemność uczestniczyć w tej konferencji postanowiliśmy zdać Wam krótką relację z jej przebiegu.

Read more