OZ 2013/1-4

M T 43 ORGANIZACIJA ZNANJA 2013, LETN. 18, ZV. 1 – 4 3. Indeksiranje Začeli smo graditi iskalno aplikacijo za trgovino s knjigami, poudarek pa je bil na različnih vrstah podatkov, dinamičnih in statičnih iskalnih poljih ter dodajanju in brisanju podatkov. 4. Shema Solr Vse o posameznih iskalnih poljih, vrstah podatkov in obdelavi teh podatkov, preden se shranijo v indeks, se nastavi v shemi Solr. Predstavili so spreminjanje te sheme in različne analizatorje, filtre ter žetone besedila. 5. Relevantnost zadetkov Da kot uporabnik dobimo pričakovane zadetke, lahko uporabimo obtežitev iskalnih polj, frazno iskanje, funkcijsko iskanje, nadomestne znake, mehko iskanje ter fonetično iskanje (angl. sounds-like ). Na žalost Solr nima posebej dobre podpore za fonetično iskanje v slovanskih jezikih. 6. Napredne funkcije Predstavljene so bile funkcije, kot so: več podobnih zadetkov (angl. more-like this ), geoprostorsko iskanje, preverjanje črkovanja, predlogi (angl. auto complete ), označevanje zadetkov, večjezično iskanje, navidezna polja in navidezno združevanje. 7. Jedra Solr Predstavljeno je bilo upravljanje strežnika Solr z več jedri (dodajanje, brisanje jeder, zakaj sploh uporabljati jedra). 8. SolrCloud SolrCloud so nove porazdelitvene kapacitete Solr, ki omogočijo avtomatsko distribucijo pri indeksiranju, porazdeljeno iskanje v razdeljenem okolju, avtomatsko dodajanje podatkovnih kopij. Spoznali smo, kako postaviti takšno okolje s pomočjo ZooKeeperja, ki skrbi za konfiguracijo postavitve in sinhronizacijo med posameznimi strežniki Solr. KONFERENCA V nadaljevanju bomo na kratko predstavili Twitter ter nekaj predavanj, ki so najbolj relevantna za razvoj novega iskalnika na IZUM-u. Videoposnetki predavanj in predstavitve so javno dostopni na http://www.lucenerevo- lution.org/2013/Lucene-Solr-Revolution-2013-Dublin- Presentations. Twitter Gre za spletno družbeno omrežje in mikroblogno storitev, ki svojim uporabnikom omogoča, da med seboj izmenjujejo kratka sporočila, dolga do 140 znakov. Twitterjev iskalnik mora izvesti dve milijardi iskanj na dan, saj ima Twitter več kot 230 milijonov aktivnih mesečnih uporabnikov, ki pošljejo 500 milijonov tvitov na dan. Slika 1: Arhitektura Twitterja Za zagotovitev iskanja v realnem času uporablja Twitter prilagojen iskalnik Lucene. Posebnost je, da lahko iščemo po medpomnilniku IndexWritter, to pa zato, ker so tviti fiksne dolžine in ker je iskanje lahko razvrščeno samo od najnovejših proti starejšim. Ko se IndexWritter napolni, se odpre nov IndexWritter, napolnjen pa se zaklene in ni več na voljo za pisanje. Iskanje poteka od konca IndexWritterja proti začetku in ko je najdenih dovolj rezultatov, se zaključi. Slika 2: Arhitektura indeksiranja Indeks arhiv je standardni indeks Lucene, razvrščen časovno. Razdeljen je na dva dela, na del v pomnilniku, ki vsebuje najboljše tvite, ter na del na disku, ki vsebuje vse tvite. Iskanje po disku se izvede samo, če iskanje po pomnilniku ne da dovolj rezultatov. The Typed Index Zastavljeno je bilo vprašanje, kako narediti dober iskalnik v večjezičnem okolju, pri čemer namesto različnih iskalnih polj ali celo celih indeksov raje dodamo tip podatka kot prepono k indeksiranim nizom. Razložili so, kako se izvede iskanje po takem indeksu in kako se uporablja funkcija "SpanQuery" za frazno in fonetično iskanje. POROČILO