OZ 2010/4

M T 145 ORGANIZACIJA ZNANJA 2010, LETN. 15, ZV. 4 KONTROLA ZAPISOV Po izločitvi zapisov po izbranih kriterijih smo preostale zapise iz vzajemne bibliografske baze podatkov COBIB.SI konvertirali v format MARC 21, nato pa se je s preverjalnikom preverila njihova usklajenost s specifikacijo formata MARC 21. Glede na napake v zapisih, ki jih je program našel, so bili analizirani zapisi tudi v formatu COMARC/B. Za vsak tip napake je tako določena programska kontrola, s katero se lahko iz prenosa izločijo neustrezni zapisi v formatu COMARC/B. Vse te kontrole lahko razdelimo v tri skupine: 1. kontrole obveznosti in ponovljivosti polj in podpolj, 2. programske kontrole iz segmenta COBISS2/ Katalogizacija in 3. vsebinske kontrole. Ker pa zapisi v formatu MARC 21 vsebujejo tudi podatke o virih člankov in drugih sestavnih delih v istem zapisu, se navedene kontrole nanašajo tudi na zapise iz vzajemne bibliografske baze COBIB.SI, ki predstavljajo te vire. Na ta način je bilo najprej izločenih preko 80.000 zapisov. Da bi zagotovili njihovo vključevanje v bazo podatkov WorldCat, smo se odločili, da analiziramo izločene zapise in preverimo možnosti programskega odpravljanja napak, saj toliko zapisov ni bilo mogoče ročno popraviti. V ta namen so bili pripravljeni seznami izločenih zapisov po različnih napakah, skupaj z vsemi podatki, ki se preverjajo pri določeni kontroli, in s podatki, ki bi lahko bili v pomoč pri razreševanju napak. Na primer, za programsko kontrolo 28, s katero se preverja, ali je v podpolju 001b ( Vrsta zapisa ) koda "g" ali "m", če je v zapisu izpolnjeno polje 115, se razen polj 115 in podpolja 001b izpiše še vsebina podpolja 200b ( Splošna oznaka gradiva ). Iz tega podatka se v nekaterih primerih dá ugotoviti, kakšno kodo je treba vnesti v podpolje 001b, ali pa sklepati, da ta zapis sploh ne bi smel vsebovati polja 115. Z analizo seznamov izločenih zapisov je bilo ugotovljeno, da je možno programsko popravljati samo dve vrsti napak: • zaporedje podpolj za podatke o sestankih v poljih 601, 710, 711 in 712 mora biti dfe (preko 8.000 zapisov), • napačen prvi indikator v polju 101 (npr. znak "|" pri zapisih, prevzetih iz OCLC) (preko 60.000 zapisov). Ker pa bi programsko popravljanje napak v zapisih zahtevalo konverzijo vzajemne bibliografske baze podatkov in vseh lokalnih baz podatkov, smo se odločili, da te napake izjemoma popravimo pri konverziji zapisov v format MARC 21. Tako smo prvo napako, ki vpliva tudi na izpis kataložnih listkov v programski opremi COBISS, odpravili s spremembo vrstnega reda podpolj dfe, drugo pa tako, da smo vrednost prvega indikatorja v polju 040 formata MARC 21 določili glede na to, ali obstaja podpolje 101b ( Jezik posrednega besedila ) ali 101c ( Jezik izvirnika ) – takrat je vrednost prvega indikatorja 1, drugače pa presledek. Drugih napak ni mogoče programsko popraviti, ker bi s tem tvegali nastanek drugih napak v zapisih. Zato je bilo odločeno, da bomo napake v IZUM-u popravljali ročno na osnovi izdelanih seznamov napak, če bo možno zapise redigirati brez gradiva. Algoritem izločanja neustreznih zapisov je nastavljen tako, da se kontrole izvajajo sekvenčno in se zapis izloči takoj pri prvi kontroli, ki najde pomanjkljivost v zapisu, kar ne pomeni, da drugih napak v zapisu ni. Pri redakciji zapisov pa je treba odpraviti tudi preostale napake v določenem zapisu, kar delo redaktorjev dodatno oteži. Po programskih popravkih in redakciji zapisov je bilo na dan priprave podatkov za prenos v bazo podatkov WorldCat zaradi kontrol izločenih 12.368 zapisov. Posamezne skupine kontrol in statistike zapisov po različnih tipih napak (slika 1) so podrobneje opisane v nadaljevanju. Slika 1: Statistika napak v zapisih pri inicialnem prenosu Obveznost in ponovljivost polj in podpolj Glede na to, da se je bibliografski format COMARC/B z leti dopolnjeval in spreminjal, bibliografski zapisi pa se niso sistematično usklajevali s temi spremembami (razen izjemoma pri kakšni konverziji lokalnih bibliografskih baz in vzajeme bibliografske baze), je bilo treba preveriti, ali zapis vsebuje vsa potrebna polja in podpolja za pravilno pretvorbo zapisa v format MARC 21. Z analizo formata MARC 21 so bile določene pomanjkljivosti obveznih polj in podpolj in njihova ponovljivost v zapisih v formatu COMARC/B glede na vrsto gradiva. 1. Obvezna polja in podpolja: • za vse vrste gradiva – 200a, 001abcd, 100ch, • za kontinuirane vire – 100b, 101a, 110a, 210c , • za monografije, članke in druge sestavne dele – 101a. 2. Neponovljiva polja: • 011, 120, 700. Gordana Budimir: BIBLIOGRAFSKI ZAPISI IZ COBIB.SI V WORLDCAT

RkJQdWJsaXNoZXIy MTAxMzI5