OZ 2012/4

164 ORGANIZACIJA ZNANJA 2012, LETN. 17, ZV. 4 naj bi sama po sebi veljala več od objave v domačem ali katerem drugem jeziku. Le en angleški govorec je dovolj, da cela skupina sogovorcev preide na angleščino. Vendar pa samozavest pri govorcih drugih jezikov raste in je takega prostovoljnega podrejanja vse manj, kar napoveduje izrazitejšo večjezičnost tudi v znanosti. Na prisotnost jezika na spletu vpliva digitalna ločnica (angl. digital divide ), kar običajno razumemo kot omejen dostop do IKT: svetovni splet uporablja 10 %Afričanov, 25 % Azijcev, 65 % Evropejcev, 80 %Američanov …Vendar sam dostop še ni dovolj, tehnologija mora biti tudi ustrezno prilagojena, kar dobro prikazuje uporaba pisav na spletu: latinično pisavo uporablja 39 % svetovne populacije, ki porabi 72 % papirja za tisk in zaseda 84 % interneta; kitajsko pisavo uporablja 22 % svetovne populacije, ki porabi 23 % papirja in zaseda 13 % interneta; arabsko pisavo uporablja 9 % svetovne populacije, ki porabi 0,5 % papirja in zaseda 1,2 % interneta; cirilico uporablja 5 % svetovne populacije, porabi 1,1 % papirja in zaseda 1,6 % interneta; indijsko pisavo uporablja 22 % svetovne populacije, ki porabi 2,2 % tiskarskega papirja in zaseda 0,3 % interneta (Mikami, 2012). Informacijska družba je z vidika preživetja jezikov kontroverzna: s svojo pasivno držo lahko pospeši njihovo umiranje, aktivni spoprijem z novimi mediji pa lahko predstavlja "drugo rojstvo jezika". Najslabša pot, ki pa jo ubirajo mnogi tradicionalisti, je pričakovanje, da bo šla "tehnološka karavana" slej kot prej mimo in se bo svet povrnil v dobre stare Gutenbergove čase. To vodi v "tehnološki lingvicid", jezikomor, ki se mu lahko izognemo le s trubarijansko ustvarjalnostjo in vztrajnostjo, ki je pred pol tisočletja postavila slovenščino med knjižne jezike. Danes ji je treba na podoben način zagotoviti mesto med spletnimi jeziki (Pivec, 2008). Ali kot vidi grožnjo Éric Poncet: "Astrofizikalna analogija s črno luknjo ni nobeno pretiravanje: jeziki brez zadostne inercije ali mase za vztrajanje na njihovi trajektoriji bodo neizogibno absorbirani in manjša kot bo njihova masa, prej se jim bo to zgodilo." (Poncet, 2012, 72). Bistvenega pomena je mednarodna standardizacija IKT in spleta. Internet je nadaljevanje pismenosti in vemo, na kakšne težave je naletela slovenščina s svojimi šumniki. Nabor znakov (angl. character set ) je problem, ki se rešuje že desetletja; od leta 1969, ko so ZDA uveljavile ASCII (American Standard Code for Information Interchange), pa do leta 2010, ko naj bi UNICODE 6.0 končno zajel vse abecede sveta, kar predstavlja nabor 109.449 črk (UC, 2010). (UNICODE je v celoti usklajen s standardom ISO/IEC 10646.) Velike zasluge za to ima Unesco, ki je leta 2003 sprejel Priporočila glede uveljavljanja in uporabe večjezičnosti in splošne dostopnosti spleta (Unesco, 2003). Strojno prevajanje Evropska unija načelno priznava jezike svojih članic, kar pomeni 23 jezikov ali 506 jezikovnih kombinacij. Ko bo združena cela Evropa, bo na kupu 60 jezikov in skoraj 4.000 jezikovnih kombinacij. Samo v Evropskem parlamentu bi danes potrebovali 8.500 prevajalcev, saj se letno nabere okoli 7 milijonov strani gradiva. Tega brez pospešenega razvoja "jezikovnih tehnologij" ne bo mogoče obvladati. V tem trenutku "jezikovne tehnologije" ne zadovoljujejo kriterijev kakovosti. V mislih imamo procesiranje zapisanega jezika: razumevanje besedila, generiranje besedila, avtomatsko povzemanje, ekstrakcijo terminologije, informacijsko preiskovanje, Q&A sisteme, strojno prevajanje itd. Pri govorjenem jeziku gre za prepoznavanje in razumevanje govora, pretvarjanje govora v pisavo, sintetiziranje govora, prepoznavanje govorca, identifikacijo govorjenega jezika, prevajanje govora, tolmačenje v realnem času itd. EU vlaga veliko truda v pospeševanje razvoja na tem področju, čemur je namenjen projekt META-NET. Ocena kakovosti strojnega prevajanja med jeziki EU je razvidna iz naslednje tabele, pri čemer velja, da "živi" prevajalci dosegajo rezultat okoli 80,0 in da postane avtomatski prevod uporaben šele pri rezultatu nad 50,0. Tabela 2: Dosežki strojnega prevajanja med jeziki EU, merjeno v % BLEU (Algoritem BLEU ocenjuje kakovost besedila, ki je bilo strojno prevedeno iz enega naravnega jezika v drugega.) (Vir: Koehn, 2009) Slovenščina v tej tabeli ne kaže pretirano dobrih rezultatov, sta pa Laboratorij za umetno inteligenco Instituta Jožef Stefan in podjetje Amebis zelo aktivna v projektu META-NET 2010–2013 (Multilingual Europe Technology Alliance, http://www.meta-net.eu) in si lahko obetamo napredek. Tudi pri tem je odločilna aktivna prisotnost jezika na spletu, saj je potreben čim večji besedilni korpus. V projektu se ukvarjajo s 30 jeziki in kar za 21 od njih kritično ugotavljajo, da imajo preslabotno podporo. Za islandščino, latvijščino, Petra Bridges: VEČJEZIČNOST V KNJIŽNIČNIH INFORMACIJSKIH SISTEMIH

RkJQdWJsaXNoZXIy MTAxMzI5