Lucene Eurcon 2011 – dzień pierwszy

Jak już pisaliśmy, kilkanaście dni temu wróciliśmy z kolejnej odsłony konferencji Lucene Eurocon, która miała miejsce w Barcelonie. Pomimo tego, iż dostępne będą filmy z każdej z prezentacji, postanowiliśmy opisać te na których byliśmy i które zapadły nam w pamięć. Niestety ze względu na to, że konferencja prowadzona była trzema ścieżkami, nie byliśmy w stanie być obecni na wszystkich tych na których byśmy chcieli.

Keynote (Search + Big Data: It’s (still) All About the User”, Grant Ingersoll)

Dzień pierwszy rozpoczął się o godzinie 8:30, czyli porze dnia, o której Hiszpanie mówią „noc” 🙂 Na pierwszy ogień poszedł Grant Ingersoll ze swoją prezentacją zatytułowaną „Search + Big Data: It’s (still) All About the User” (slajdy, video). Grant przypomniał nam, iż pomimo wszystkich rewelacyjnych technologii, którymi zajmujemy się na co dzień, na końcu zawsze jest użytkownik. Dlatego też powinniśmy robić wszystko, aby użytkownicy byli zadowoleni z aplikacji, której jesteśmy twórcami. Grant pokazał, że pomimo to, że developerzy mają coraz to bardziej zaawansowane technologicznie narzędzia, to jednak dalej wszystko sprowadza się do tego do tego samego – najważniejszy jest użytkownik. Zdecydowanie warto o tym pamiętać.

Keynote #2 (Architecting the Future of Big Data & Search, Eric Baldeschwieler)

Kolejną prezentacją w której uczestniczyła większość, jeżeli nie wszyscy, uczestnicy konferencji była „Architecting the Future of Big Data & Search” Eric’a Baldeschwieler (slajdy, video). W trakcie prezentacji Eric starał się odpowiedzieć m.in. na pytanie, czy Lucene i Hadoop są w stanie sprawnie współpracować w ramach jednego systemu. Na początku dostaliśmy sporą dawkę informacji na temat Map/Reduce, Hadoop oraz HBase. Druga część prezentacji to studium przypadku wdrożenia Apache Hadoop w Yahoo oraz jak Map/Reduce pomaga w realizacji codziennych zadań stawianych przed systemem. Sam koniec prezentacji to integracja Hadoop’a oraz Lucene. Dużo ciekawych informacji, jak tylko dostępny będzie film, to polecam obejrzenie.

Rzecz o strukturze indeksu (Portable Lucene Index Format & Applications, Andrzej Białecki)

W tym momencie konferencja podzielona została na trzy równoległe sesje, a my zdecydowaliśmy się na prezentację Andrzeja Białeckiego pod tytułem „Portable Lucene Index Format & Applications” (slajdy, video). Andrzej zaczął od informacji na temat struktury indeksu Lucene oraz dlaczego wsteczna kompatybilność jest trudna do zrealizowania. Następnie prezentacja skupiła się nad tym, co jest jej tytułem, czyli dlaczego przenośny format indeksu Lucene jest potrzebny, jakie się cele stawiane przed tym formatem oraz jak w tym momencie prezentuje się szkic implementacji wraz z PortableCodec. Słuchacze mogli zobaczyć ciekawy przykład wykorzystania SimpleTextCodec i jak wyglądają dane zapisane w formie tekstowej 🙂 Polecam video w celu zapoznania się z całością prezentacji.

Pierwszy temat o Solr (Improving Solr’s Update Chain, Jan Høydahl)

Zmieniliśmy salę, aby posłuchać, jak Jan Høydahl mówi o „Improving Solr’s Update Chain” (slajdy). Podczas prezentacji Jan pokazał jak wykorzystać możliwości definiowania komponentów rozszerzających Update Chain Solr’a i jak wpiąć w ten proces własne elementy. Okazuje się, iż prosta modyfikacja pliku XML pozwala na rozbudowanie i dostosowanie procesu indeksacji danych do naszych własnych potrzeb. Dodatkowo, można było zapoznać się z technicznymi informacjami dotyczącymi implementacji własnych komponentów umożliwiających wpływ na proces indeksacji. Duża cześć prezentacji to pokazanie w jaki sposób wykorzystano opisane możliwości w realnym projekcie dla uniwersytetu w Oslo. Na koniec uczestnicy konferencji dostali informacje na temat planów i elementów projektu, które zostały przekazane Apache Software Fundation jako patch’e do Solr.

Obserwuj swoich użytkowników (Search Analytics: Business Value & BigData NoSQL Backend, Otis Gospodnetic)

Kolejna prezentacja skupiająca się na tym, co powinno być w przypadku wyszukiwania najważniejsze – czyli użytkowniku, prowadzona przez Otisa Gospodnetic pod tytułem „Search Analytics: Business Value & BigData NoSQL Backend” (slajdy, video). Jeżeli korzystasz z Solr koniecznie obejrzyj co Sematext ma dla Ciebie do zaoferowania i co ważne, jak na razie kompletnie za darmo. Otis podczas prezentacji mówił o tym, iż analiza zachowania użytkownika i to jak korzysta z Twojego systemu, to nie możliwość, a konieczność. Bez tego nie da się stroić i udoskonalać wyszukiwania, bo nie wiemy jak, ani nie wiemy też gdzie. Dodatkowo, bez danych dotyczących zachowania użytkowników, nie możemy stwierdzić, czy zmiany, które robimy, idą w dobrym kierunku. Zdecydowanie polecam.

Solr i Hadoop (Scaling Search at Trovit with Solr & Hadoop, Marc Sturlese)

Po krótkiej przerwie zdecydowaliśmy się na posłuchanie o integracji Solr i Hadoop’a w ramach prezentacji „Scaling Search at Trovit with Solr & Hadoop” (slajdy), którą poprowadził Marc Sturlese. Autor skupił się na prezentacji w jaki sposób udało im się rozproszyć indeksację w oparciu o Apache Hadoop, czyli z wykorzystaniem Map/Reduce. W skrócie, prezentacja opowiadała o tym, jak całkiem wydajnie, korzystając z danych zgromadzonych w HDFS, utworzyć mniejsze indeksy, a następnie połączyć je w większe indeksy (lub jeden duży indeks, w zależności od potrzeb). Dodatkowo Marc pokazywał, co zrobili, aby skorzystać z funkcjonalności Solr, a dokładniej z części analizy danych oraz rozproszonego usuwania duplikatów, nie uruchamiając samego Solr.

Solr i UIMA (Natural language search in Solr, Tommaso Teofili)

Kolejna prezentacja w której uczestniczyliśmy to „Natural language search in Solr” (slajdy) poprowadzona przez Tommaso Teofili. Treść prezentacji to możliwości realizacji wyszukiwania opartego o język naturalny w Apache Solr w połączeniu z UIMA oraz pokazanie jak zostało to zrealizowanie w jednym z projektów. Trochę technicznych szczegółów, porównań wydajności i trochę o tym, że system należy „uczyć” zachowania. Ciekawy temat i dość ciekawa prezentacja. Polecam obejrzeć, jak tylko film zostanie udostępniony.

Nadchodzi nowe (Improved Search with Lucene 4, Robert Muir)

Podczas ostatniej przewidzianej na ten dzień prezentacji, zatytułowanej „Improved Search with Lucene 4” (slajdy, video), Robert Muir mówił zmianach jakie czekają Apache Lucene w wersji 4.0. Usłyszeliśmy także dużo na temat wydajności Lucene 4.0, zmian w API, NRT, czy wsparcia dla głębokiego stronicowania. Ciekawa techniczna prezentacja, mówiąca o tym, czego możemy się spodziewać po nadchodzącej wersji Lucene. Osoby zainteresowane tematem odsyłam do filmu z prezentacji.

Krótko i na temat (Lighting Talks)

Następnie konferencja znów została połączona w jeden strumień podczas sesji tzw. „Lighting talks”, czyli krótkich – kilku minutowych prezentacji. Ze względu na sporą dawkę humoru, najbardziej w pamięć zapadła mi krótka prezentacja prowadzona przez Uwe Schindler pod tytułem „Java 7 and Lucene: the story behind the story”, która moim zdaniem powinna się raczej nazywać „Don’t use Java 7 for anything” 😉 Szczere gratulacje za rozbawienie zgromadzonej publiki 😉 Sama sesja składała się z następujących prezentacji (ze względu na czas prezentowania pominę ich streszczenie):

„Morphological Analysis and Named Entity Recognition for your Lucene/Solr Search Applications” (slajdy) – prezenter Christoph Goller
„Java 7 and Lucene: the story behind the story” (slajdy) – prezenter Uwe Schindler
„Navigating Subdocuments with Solr” (slajdy) – prezenter Mikhail Khludnev
„Powered by Lucene: IBM Content Analytics with Enterprise Search” (slajdy) – prezenter Wolfgang Jung
„Solr performance monitoring” – prezenter Otis Gospodnetic
„Searching in more than 140 years newspaper articles” (slajdy) – prezenter Nicola Provenzano

Stump the chump (Chris Hostetter)

Sesja na wesoło i na luzie podczas której można było na dodatek dostać parę euro na drobne wydatki (100, 50 i 25 jak dobrze pamiętam). Całość polegała na tym, żeby zadać Chrisowi (aka Hoss) pytanie, na które nie będzie w stanie odpowiedzieć. Streszczanie tej części nie ma sensu, polecam film, który dostępny jest pod adresem: http://www.lucidimagination.com/devzone/events/conferences/ApacheLuceneEurocon2011/apache-lucene-eurocon-2011-stump-chump.

Koniec pierwszego dnia

Tym samym skończyliśmy część konferencyjną dnia pierwszego. Niektórzy z uczestników wybrali się następnie na mecz FC Barcelony z FC Viktoria Plzeň, niewielka część oddaliła się w kierunku swoich hoteli, a cała reszta, w tym my, udała się do klubu Shoko na „cavę” i coś do zjedzenia.

Solr.pl