baza danych – Solr.pl

Data Import Handler – usuwanie danych z indeksu

Marek Rogoziński — Mon, 03 Jan 2011 07:58:02 +0000

Usuwanie danych z indeksu przy wykorzystaniu indeksowania przyrostowego w DIH jest na wiki SOLR potraktowane szczątkowo, jako coś, co działa analogicznie do aktualizacji rekordów. Podobnie we wcześniejszym artykule użyłem tego skrótu, tym bardziej, że podany przeze mnie przykład z indeksowaniem zasobów wikipedii nie potrzebował usuwania danych.

Mając pod ręką przykładowe dane z albumami i wykonawcami postanowiłem pokazać mój sposób postępowania w takich wypadkach. Dla uproszczenia i przejrzystości zakładam, że po pierwszym zaimportowaniu, danych może tylko ubywać.

Dane testowe

Moje dane testowe mieszczą się bazie PostgreSQL w tabeli zdefiniowanej następująco:

Table "public.albums"
Column |  Type   |                      Modifiers
--------+---------+-----------------------------------------------------
id     | integer | not null default nextval('albums_id_seq'::regclass)
name   | text    | not null
author | text    | not null
Indexes:
"albums_pk" PRIMARY KEY, btree (id)

W tabeli znajduje się 825661 rekordów.

Instalacja testowa

Do testów użyłem instancji SOLR posiadającej następującą charakterystykę:

Definicja w schema.xml:






id
album

Definicja DIH w solrconfig.xml:



db-data-config.xml

I plik DIH db-data-config.xml:

Przed naszym testem zaimportowałem wszystkie dane z tabeli albums.

Usuwanie danych

Patrząc na tabelę widać, że gdy usuniemy rekord, ginie on bez śladu i jedynym sposobem aktualizacji naszego indeksu byłoby porównanie identyfikatorów dokumentów w indeksie z identyfikatorami w bazie i wyrzucenie tych, które w bazie już nie istnieją. Wolne i niewygodne. Innym sposobem jest dodatnie kolumny deleted_at: zamiast kasowania fizycznie rekordu, uzupełniamy tylko tę kolumnę. DIH może wtedy pobrać wszystkie rekordy z ustawioną datą późniejszą od ostatniego indeksowania. Wadą tego rozwiązania może by konieczność modyfikacji aplikacji by uwzględniały tak „skasowane” rekordy.

Ja zastosuje inne rozwiązanie, przeźroczyste dla aplikacji. Tworzymy nową tabelę:

CREATE TABLE deletes
(
id serial NOT NULL,
deleted_id bigint,
deleted_at timestamp without time zone NOT NULL,
CONSTRAINT deletes_pk PRIMARY KEY (id)
);

Do tej tabeli automagicznie będziemy dopisywać identyfikatory tych elementów, które zostały usunięte z tabeli albums oraz informacje kiedy zostały usunięte.

Teraz dodamy jeszcze funkcję:

CREATE OR REPLACE FUNCTION insert_after_delete()
RETURNS trigger AS
$BODY$BEGIN
IF tg_op = 'DELETE' THEN
INSERT INTO deletes(deleted_id, deleted_at)
VALUES (old.id, now());
RETURN old;
END IF;
END$BODY$
LANGUAGE plpgsql VOLATILE;

oraz trigger:

CREATE TRIGGER deleted_trg
BEFORE DELETE
ON albums
FOR EACH ROW
EXECUTE PROCEDURE insert_after_delete();

Sprawdzamy działanie

Zgodnie z planem, każdy usunięty wpis w tabeli albums powinien skutkować uzupełnieniem tabeli
deletes. Sprawdźmy więc. Usuwamy parę rekordów:

=> DELETE FROM albums where id < 37;
DELETE 2
=> SELECT * from deletes;
id | deleted_id |         deleted_at
----+------------+----------------------------
26 |         35 | 2010-12-23 13:53:18.034612
27 |         36 | 2010-12-23 13:53:18.034612
(2 rows)

Czyli baza działa.

Uzupełniamy plik konfiguracyjny DIH tak, by entity było zdefiniowane następująco:

Dzięki temu przy imporcie przyrostowym DIH użyje atrybutu deletedPkQuery by pobrać identyfikatory tych dokumentów, które należy usunąć.

Sprytny czytelnik pewnie zacznie się zastanawiać, czy na pewno potrzebna jest nam kolumna z datą usunięcia rekordu. Przecież możemy usunąć wszystkie rekordy znalezione w tabeli deleted a następnie skasować zawartość tej tabeli. Teoretycznie to prawda, ale w przypadku problemu z serwerem indeksującym SOLR w naszym wypadku łatwo zastąpić go innym – jego stopień synchronizacji z bazą nie jest bardzo istotny – po prostu za następnym importem przyrostowym nastąpi synchronizacja z bazą. W opcji z kasowaniem zawartości deletes takie możliwości nie ma.

Wykonujemy teraz import przyrostowy wywołując adres: /solr/dataimport?command=delta-import
W logach powinna pojawić się linia podobna do tej:
INFO: {delete=[35, 36],optimize=} 0 2
Co oznacza, że DIH poprawnie usunął z indeksu te dokumenty, które usunęliśmy wcześniej z bazy.

Data Import Handler – sharding

Marek Rogoziński — Mon, 27 Dec 2010 07:57:08 +0000

Nasza czytelniczka (pozdrawiamy!) zgłosiła się do nas z problemem dotyczącym współpracy DIH z shardingiem. Wiki projektu SOLR pokazuje moim zdaniem rozwiązanie tej kwestii, ale czyni to trochę na około i przy okazji.

Co to jest sharding?

Sharding oznacza podział danych na kilka części oraz przechowywanie i obróbkę tych danych niezależnie. Dodatkowa logika w ramach aplikacji pozwala na wybranie odpowiedniej części zbioru danych i/lub łączenie wyników z poszczególnych źródeł. W przypadku DIH i shardingu możemy mieć do czynienia z następującym przypadkiem:

sharding po stronie źródło danych – czyli wiele lokalizacji / tabel zawierających poszczególne części zbioru danych
sharding po stronie SOLR – czyli podzielenie danych ze źródła na wiele niezależnych instancji SOLR
oba powyższe jednocześnie

W opisywanym przypadku mamy jeden zbiór danych i chcemy stworzyć wiele zbiorów (tzw. shardów) po stronie SOLR.

Kiedy stosować sharding?

Bardzo ważna kwestia: po co? W moim mniemaniu sharding bywa zbyt często nadużywany generując mnóstwo dodatkowych komplikacji i ograniczeń. Główny powód to duży wolumen danych, które powodują, że indeks SOLR nie mieści się w obrębie jednej maszyny. Jeśli tak nie jest – często oznacza to, że sharding jest zbędny. Kolejny powód to wydajność. Jednak sharding może tutaj pomóc tylko wtedy, gdy inne optymalizacje zawiodą a zapytania są na tyle skomplikowane, że sam narzut shardingu (przekazania zapytania do poszczególnych shardów i łączenie ich odpowiedzi) jest mniejszy niż zysk możliwy do uzyskania.

Dane testowe

Zakładamy jednak, że sharding jest nam potrzebny. W przykładzie poniżej użyłem danych z musicbrainz tworząc prostą tabelę postgresową:

Table "public.albums"

 Column |  Type   |                      Modifiers
--------+---------+-----------------------------------------------------

 id     | integer | not null default nextval('albums_id_seq'::regclass)

 name   | text    | not null

 author | text    | not null

Indexes:

"albums_pk" PRIMARY KEY, btree (id)

W tabeli znajduje się 825661 rekordów. Podkreślam tutaj, że zarówno struktura jak i ilość danych jest na tyle małe, że praktyczna przydatność shardingu jest tu pomijalna.

Instalacja testowa

Do testów użyjemy trzech instancji SOLR. Wszystkie instancje są identyczne, różnica jest związana tylko z numerem portów (8983, 7872, 6761) – testy będą wykonywane na jednej fizycznej maszynie.

Definicja w schema.xml:


 
 
 

id
album

Definicja DIH w solrconfig.xml:


 
  db-data-config.xml

I plik DIH db-data-config.xml:

W tym momencie każda instancja jest w stanie dokonać pełnego importu danych.

Zestawiamy sharding

Naszym celem jest takie zmodyfikowanie konfiguracji DIH by każda instancja indeksowała tylko „swoją” część danych. Najprościej zrobić to modyfikując zapytanie pobierające dane np w ten sposób:

SELECT * from albums where id % LICZBA_INSTANCJI = NUMER_INSTANCJI

gdzie:

LICZBA_INSTANCJI – liczba serwerów SOLR przechowujących unikalne części zbioru danych
NUMER_INSTANCJI – numer instancji (liczony od zera)

takie zapytanie nie gwarantuje nam dokładnie i idealnie równego podziału ale spełnia dwa konieczne warunki:

dany rekord trafi zawsze na konkretną i zawszę tę samą instancję
pojedynczy rekord trafi zawsze na tylko jedną instancję

czyli db-data-config.xml na każdej maszynie różni się teraz zapytaniem i wygląda na poszczególnych instancjach następująco:

SELECT * from albums where id % 3 = 0
SELECT * from albums where id % 3 = 1
SELECT * from albums where id % 3 = 2

Sprawdzamy działanie

Po uruchomieniu wszystkich instancji SOLR na każdej wywołujemy adres:

/solr/dataimport?command=full-import

Po zakończeniu pracy DIH i wywołaniu:

/solr/dataimport?command=status

dostajemy w odpowiedzi od instancji odpowiednio:

Added/Updated: 275220 documents.
Added/Updated: 275221 documents.
Added/Updated: 275220 documents.

Wykonując prostą operację dodawania widzimy, że we wszystkich instancjach łącznie mamy 825661 dokumentów, czyli tyle ile powinno tam być
Wykonajmy jeszcze zapytanie o wszystkie dokumenty, z wykorzystaniem shardingu wywołując na dowolnej instancji:

/solr/select/?q=*:*&shards=localhost:6761/solr,localhost:7872/solr,localhost:8983/solr

Wynik: 825661.

To działa!

Data Import Handler – import danych z baz SQL (cz. 1)

Marek Rogoziński — Mon, 11 Oct 2010 04:54:16 +0000

W artykule o sposobach importu danych (http://solr.pl/2010/09/06/solr-importowanie-danych/) wspomniałem o Data Import Handler (DIH). Podstawową zaletą tego sposobu importowania jest brak konieczności tworzenia dodatkowego oprogramowania oraz szybka integracja ze źródłem danych. Ta druga zaleta wymaga jednak wprawy i praktyki. W tym wpisie przedstawię podstawy integracji DIH ze źródłem danych SQL.

W przykładach użyta została baza PostgeSQL zawierająca dane polskiej wikipedii. Testowa instancja solr została zdefiniowana jako rdzeń „wikipedia” i dostępna była pod adresem:

http://localhost:8983/solr/wikipedia/admin/

Konfiguracja solrconfig.xml

Konfiguracja sprowadza się do dodania dodatkowego requestHandlera. Parametr: config określa plik konfiguracyjny, w którym znajduje się definicja źródła danych.

 
  
   db-data-config.xml

Dzięki takiej definicji zyskujemy możliwość wywoływania adresu HTTP obsługującego import:

/dataimport – w celu uzyskania aktualnego statusu
/dataimport?command=reload-config – w celu ponownego odczytania konfiguracji
/dataimport?command=full-import – w celu zlecenia rozpoczęcia pełnego indeksowania danych
/dataimport?command=delta-import – w celu zlecenia rozpoczęcia indeksowania przyrostowego

(dla mojej konfiguracji pełen adres to: http://localhost:8983/solr/wikipedia/dataimport)

Powyżej widzimy dwie możliwości importowania danych: import pełny i przyrostowy.

Pełny import danych polega na każdorazowym wczytaniu wszystkich danych, które powinny znaleźć się w indeksie, podczas gdy import przyrostowy oznacza tylko dodanie i aktualizację w indeksie tych danych, które zmieniły się od ostatniego indeksowania. Pełny import zwykle trwa znacznie dłużej stąd prosty wniosek: jeśli czas pełnego indeksowania nie jest dla nas problemem – prawdopodobnie nie warto zawracać sobie głowy konfiguracją indeksowania przyrostowego, zwłaszcza, że nakłada ono dodatkowe wymagania na strukturę źródła danych.

Warto zaznaczyć, że pełny import domyślnie rozpoczyna się od usunięcia istniejącego indeksu. Istnieje możliwość uniknięcia takiego zachowania poprzez dodanie parametru: clean=false.

Konfiguracja źródła danych

Konfiguracja polega na zdefiniowaniu zapytań pozwalających solr na pobieranie danych do indeksowania i zawiera się w pliku określonym przy definicji handlera (u nas: db-data-config.xml) W tym wpisie zaczniemy od zdefiniowania pełnego importu. Następnie, w kolejnej części artykułu rozbudujemy go o możliwość importowania przyrostowego.

Pełny import

Jak widzimy definicja źródła składa się z opisu sposobu połączenia do baz danych oraz opisu indeksowanego dokumentu. Import następuje zgodnie z następującym algorytmem:

Usuwany jest stary indeks (jeśli nie użyto parametru clean=false)
Solr po wywołaniu komendy indeksowania nawiązuje połączenie do bazy danych.
Definiowany jest kursor bazodanowy wykorzystujący zapytanie określone w argumencie „query” w głównej encji
Pobierana jest porcja danych
Dla każdego pobranego rekordu definiowane są zmienne postaci ., dzięki czemu do zwróconych wartości można odwołać się w encjach zagnieżdżonych
Wykonywane są zapytania z encji zagnieżdżonych
Encja może zawierać definicje pól. Dzięki temu Solr jest w stanie określić mapowanie kolumny z wyniku na pole dokumentu zdefiniowane w schema.xml
Dokument stworzony dzięki wartościom zwróconych przez zapytania jest dodawany do indeksu
Jeśli kursor posiada kolejne wyniki następuje skok do punktu 4.
Następuje zapisanie danych do pliku dataimport.properties, dane zostają zatwierdzone (commit) i wykonywana jest optymalizacja indeksu

Po uruchomieniu solr i wejściu na stronę: http://localhost:8983/solr/wikipedia/dataimport pojawiła sie odpowiedź:



  
    0
    0
  
  
    
      db-data-config.xml
    
  
  idle
  
  
  This response format is experimental.  It is likely to change in the future.

Uwagę zwraca wpis: status: idle. Oznacza to, że nasz importer jest gotowy do pracy. W innym przypadku (np. Błąd poprawności XML konfiguracyjnego) dostaniemy opis wyjątku. Niestety na tym etapie nie są wykrywane jeszcze błędy związane np. z niewłaściwą definicją połączenia do bazy lub braku sterownika JDBC.

Wchodzimy więc na stronę: http://localhost:8983/solr/wikipedia/dataimport?command=full-import

To co powinniśmy otrzymać, to podobny jak wyżej XML. Jednak po ponownym wejściu na stronę: http://localhost:8983/solr/wikipedia/dataimport dostajemy już inny wynik.



  
    0
    0
  
  
    
      db-data-config.xml
    
  
  busy
  A command is still running...
  
    0:1:15.460
    39547
    59319
    19772
    0
    2010-10-03 14:28:00
  
  This response format is experimental.  It is likely to change in the future.

Czyli importer pracuje.

Po pewnym czasie, zależnym od ilości indeksowanych danych i szybkości komputera otrzymamy:



  
    0
    0
  
  
    
      db-data-config.xml
    
  
  idle
  
  
    2118645
    3177966
    0
    2010-10-03 14:28:00
    Indexing completed. Added/Updated: 1059322 documents. Deleted 0 documents.
    2010-10-03 14:55:20
    2010-10-03 14:55:20
    1059322
    0:27:20.325
  
  This response format is experimental.  It is likely to change in the future.

Jak widzimy indeksacja zakończyła się sukcesem.

W kolejnym odcinku spróbujemy dodać możliwość importowania przyrostowego.