OZ 2012/1

ORGANIZACIJA ZNANJA 2012, LETN. 17, ZV. 1 kategorijo je 5.000. • Za ciljno vrednost (angl. target value ) pri izdelavi analiz smo izbrali področje Računalništvo in informatika. Izdelava in primerjava modelov Pripravili smo več različnih klasifikacijskih modelov in iskali najboljšega. Izbirali smo različne učne množice ob nespremenjenih nastavitvah parametrov modelov. Modele smo izdelali posebej za klasifikacijo angleških in slovenskih besedil. Modele smo ocenjevali in primerjali glede na različne parametre. Spremljali smo: 1. Oceno modela, kot jo poda orodje Oracle data mining na osnovi testnih podatkov. Ocena pove, za koliko odstotkov je model boljši od t. i. modela Naive Bayes [2]. 2. Oceno klasifikacije reprezentativnih besed po klasifikaciji ARRS, iz katere smo izbrali besede, tesno povezane s področjem. Seznam besed je predstavljal dodatno testno množico, kjer smo rezultate klasifikacij besed primerjali z želeno klasifikacijo. Oceno je predstavljal odstotek ujemanja rezultata klasifikacije z dejansko. Testno množico je sestavljalo 180 besed v slovenskem jeziku in 165 besed v angleškem jeziku. 3. Oceno transformacije vede v klasifikacijo CERIF. Klasifikacija CERIF in ARRS imata enake vede, le da ima klasifikacija CERIF medicino in biotehniko združeno v biomedicino. Ocena predstavlja odstotek ujemanja klasifikacij ved, kot jih je podal model glede na dejansko klasifikacijo. Testno množico je sestavljalo 363 opisov iz klasifikacije CERIF v slovenskem jeziku in 363 opisov v angleškem jeziku. 4. Oceno na osnovi ujemanja klasifikacije angleških in slovenskih besedil, ki pove, v koliko odstotkih je klasifikacija angleškega in slovenskega besedila enaka. 5. Oceno na osnovi odstotka ujemanja z vedo, pridobljeno iz števila UDK, ki je vezana na bibliografsko enoto. 6. Oceno razdelitve po vedah (v odstotkih) v primerjavi z razdelitvijo po številu UDK. Modele smo zgradili na osnovi različnih učnih množic in vsakega posebej ocenili. Vse ocene modelov so predstavljene v tabelah. Prva učna množica je vsebovala opise področij in podpodročij iz klasifikacije ARRS. Ocene modela so služile kot referenčna vrednost, na osnovi katere smo ocenjevali naslednje modele. V drugo učno množico smo dodali ključne besede raziskovalcev, projektov, programov in raziskovalnih skupin (imenovane raziskovalne entitete). Učno množico smo tako povečali za 98 % ali dodatnih 40.000 zapisov. Kadar ima entiteta v bazi SICRIS dodeljenih več področij ARRS, se v učni množici iste ključne besede dodelijo za vsako klasifikacijo posebej. Model je po pričakovanjih dal slabše rezultate pri reprezentativnih besedah iz klasifikacije ARRS in boljše v primeru tansformacije vede in področja v klasifikacijo CERIF. Višja je bila tudi ocena ujemanja klasifikacije angleških in slovenskih besedil (tabela 1). V tretjo učno množico smo dodatno vključili še opise iz klasifikacije CERIF. Na osnovi transformacije vede v klasifikacijo CERIF smo pridobili tudi transformacijo področij v klasifikacijo CERIF. Transformacijo smo pregledali in vnesli popravke. Na ta način smo pridobili dodatno množico za pridobitev ocene modelov. Opisom področij in podpodročij po klasifikaciji ARRS in CERIF smo želeli dati večjo težo. Ključne besede entitet se lahko ponavljajo (v povprečju vsaka 1,5-krat), po drugi strani pa dodeljena klasifikacija ARRS ni preverjena in je lahko tudi napačna. Da bi uravnotežili število skupin učnih podatkov (opisi področij in podpodročij iz klasifikacije ARRS, klasifikacije CERIF ter ključne besede entitet), smo opise področij in podpodročij ponovili v naboru učnih podatkov. Po nekaj različnih izbirah smo opise klasifikacije ARRS uporabili s šestkratno ponovitvijo ter opise klasifikacije CERIF s štirikratno ponovitvijo. Ocene so se pri vseh meritvah zelo izboljšale. Model smo ocenili kot primeren za klasificiranje ključnih besed iz bibliografskih enot in ga uporabili za kategorizacijo 850.000 ključnih besed iz bibliografskih enot, od tega jih je imelo 230.000 angleški prevod. Le v 44,80 % je prišlo do ujemanja klasifikacije slovenskih in angleških ključnih besed (tabela 2), ujemanje s klasifikacijo ved po UDK pa je bilo 61-odstotno v primeru slovenskega in 64-odstotno v primeru angleškega jezika (tabela 3). V primeru četrte učne množice smo povsem zamenjali učne podatke. Iz klasifikacije ARSS smo poiskali besedne zveze oz. besede, ki enolično določajo klasifikacijo. Za oceno kvalitete izbranih besednih zvez smo izvedli primerjavo med klasifikacijo ključnih besed raziskovalcev, raziskovalnih skupin, projektov in programov, ter klasifikacijo, določeno glede na iskanje besednih zvez v ključnih besedah. Po večkratni primerjavi in izločitvi besednih zvez, ki klasifikacije ne določajo enoznačno, smo dosegli 73-odstotno ujemanje. Iz množice ključnih besed bibliografskih enot smo poiskali zapise, ki v začetnem delu (med prvimi 25. znaki) vsebujejo značilne besedne zveze. Z izločitvijo vseh duplikatov je učna množica vsebovala 88.000 slovenskih in 34.000 angleških zapisov. Izdelali smo Andrej Korošec: KLASIFIKACIJA KLJUČNIH BESED IZ BIBLIOGRAFSKIH ENOT