OZ 2012/1

M T ORGANIZACIJA ZNANJA 2012, LETN. 17, ZV. 1 model in ga uporabili za kategorizacijo ključnih besed bibliografskih enot. Rezultati so bili v vseh ocenah slabši kot v predhodnem modelu, primerljivi so bili z rezultati drugega modela. V primeru pete učne množice smo učni množici četrtega modela, pripravljeni na osnovi besednih zvez, dodali ključne besede entitet ter opise področij in podpodročij v klasifikaciji ARRS. V tem primeru je model dobil najboljše ocene. Pri oceni na osnovi ujemanja klasifikacije angleških in slovenskih besedil je bil rezultat v primerjavi s tretjim modelom izboljšan za okoli 5 % (tabela 2), podobno pri oceni na osnovi odstotka ujemanja z vedo, pridobljeno iz števila UDK (tabela 3). Tabela 1: Ocene testnih primerov klasifikacij (ocene 1, 2, 3) Model Točnost modela Ujemanje korenov Ujemanje z vedo po CERIF 1 – slovensko 79,75 % 67,22 % 45,45 % 1 – angleško 82,98 % 74,55 % 61,16 % 2 – slovensko 47,05 % 63,33 % 65,84 % 2 – angleško 47,82 % 58,79 % 69,15 % 3 – slovensko 56,52 % 70 % 80,9 % 3 – angleško 58,87 % 80,60 % 80,9 % 4 – slovensko 94,41 % 62,78 % 59,78 % 4 – angleško 92,40 % 55,15 % 63,64 % 5 – slovensko 74,71 % 82,22 % 74,10 % 5 – angleško 66,48 % 80,61 % 75,21 % Tabela 2: Ocena na osnovi ujemanja klasifikacije angleških in slovenskih besedil (ocena 4) Model Ujemanje vede (oba jezika) Ujemanje področja (oba jezika) 3 65,80 % 44,80 % 4 56,47 % 33,52 % 5 70,83 % 50,71 % Tabela 3: Ocene ujemanja vede po klasifikaciji bibliografskih enot z vedo, pridobljeno iz UDK-ja (ocena 5) Model Ujemanje z vedo UDK 3 – slovensko 60,78 % 3 – angleško 64,01 % 4 – slovensko 56,91 % 4 – angleško 60,33 % 5 – slovensko 67,47 % 5 – angleško 67,73 % Tabela 4: Razdelitev bibliografskih enot po vedah glede na razdelitev po UDK Model Naravoslovje Tehnika Medicina Biotehnika Družbosl. Humanistike 3 – slovensko 11 % 23 % 6 % 8 % 26 % 26 % 3 – angleško 14 % 20 % 8 % 6 % 22 % 30 % 4 – slovensko 29 % 18 % 4 % 5 % 25 % 18 % 4 – angleško 15 % 31 % 3 % 3 % 20 % 27 % 5 – slovensko 13 % 20 % 5 % 8 % 29 % 24 % 5 – angleško 15 % 23 % 4 % 6 % 24 % 29 % Glede na UDK 15 % 18 % 11 % 6 % 29 % 21 % Ugotovitve Pri daljših besedilih, ki so vezana na različna raziskovalna področja, orodje za klasifikacijo ne omogoča, da bi dele besedila različno obtežili. Obtežitev smo z modelom 3 dosegli tako, da smo opise področij in podpodročij iz klasifikacij ARRS ter CERIF ponovili v naboru učnih podatkov in na ta način dosegli boljše rezultate v primerjavi z modelom 2 (tabela 1). Najboljše rezultate smo dosegli v primeru, ko smo za učenje modela uporabili vse različne skupine učnih množic – model 5 v primerjavi z modelom 4 (tabele 1, 2, 3). Ker smo polovico podatkov pridobili z iskanjem korenov ključnih besed iz bibliografskih enot, smo na ta način tudi obtežili korenske izraze. Glede na oceno odstotka ujemanja z vedo, pridobljeno iz števila UDK, je bila klasifikacija angleških besedil bolj točna (tabela 3), saj je orodje prilagojeno angleškemu jeziku, ki avtomatsko izloča veznike, predloge in druge besede, ki bi vnašale napako v model, pri slovenskih besedilih pa je klasifikacija težje izvedljiva zaradi sklonov samostalnikov. Ocena razdelitve po vedah (v odstotkih) v primerjavi z razdelitvijo na osnovi števila UDK je dala najboljše rezultate za zadnji model, zgrajen na osnovi različih tipov učnih množic (tabela 4). Za razdelitev bibliografskih del po raziskovalnih področij (v odstotkih) smo upoštevali povprečje angleških in slovenskih rezultatov zadnjega modela. Prvih deset mest je bilo razdeljenih med področja iz tabele 5. Andrej Korošec: KLASIFIKACIJA KLJUČNIH BESED IZ BIBLIOGRAFSKIH ENOT