OZ 2013/1-4

48 ORGANIZACIJA ZNANJA 2013, LETN. 18, ZV. 1 – 4 zemljepisne dolžine in širine, danes pa s satelitskimi sistemi GPS. Ko so računalniki zamenjali knjigo, besede obravnavamo kot podatke. Na Facebooku so preobrnjena v podatke tudi prijateljstva in stališča, kot je "všeč mi je"! Po novem naj bi vnašali v računalnik dovolj podatkov, da bi lahko sklepali po verjetnosti, da je, recimo, semafor zelen in ne rdeč, namesto da "učimo" računalnik, kot so strokovnjaki za umetno inteligenco neuspešno poskušali storiti že desetletja, kako upravljati avto ali prevajati med jeziki! Uporaba velike količine podatkov zahteva tri temeljite spremembe v tem, kako dostopamo in uporabljamo podatke: • zbiramo in uporabimo veliko podatkov namesto majhne količine ali statističnih vzorcev; • prednost damo nenatančnim podatkom namesto natančnim: v vedno večjem številu situacij se lahko tolerira nenatančnost, ker koristi od uporabe velike količine podatkov različne kakovosti odtehtajo stroške uporabe manjše količine zelo natančnih podatkov; • v mnogih primerih se odrečemo prizadevanjem, da bi odkrili vzroke, v prid izračunu korelacij; namesto da bi poskušali razumeti natančno, zakaj se je motor pokvaril ali zakaj je izginil neželen učinek zdravila, lahko raziskovalci namesto zbiranja in analize ogromnih količin informacij iščejo vzorce, ki lahko pomagajo pri napovedovanju dogodkov v prihodnosti; masovni podatki pomagajo odgovoriti na vprašanje "kaj" in ne "zakaj", kar je pogosto "dovolj dobro". Prej smo delali z relativno majhnimi količinami podatkov, saj so bila orodja za zbiranje, organiziranje, shranjevanje in analizo podatkov slaba. Ljudje so prebirali informacije in jih reducirali na minimum, da bi jih lažje preučevali. Šlo je za razvoj moderne statistike, ki se je začel v poznem 19. stoletju in omogočil razumevanje zahtevnejših realnosti, tudi če je obstajalo le malo podatkov. Danes pa se je tehnično okolje obrnilo za 179 stopinj. Še vedno obstajajo omejitve, koliko podatkov lahko upravljamo, vendar je teh omejitev veliko manj kot nekoč in jih bo s časom še manj! Podatke smo obdelovali z vzorčenjem, ki zmanjša stroške in potreben čas za obdelavo. Statistično vzorčenje temelji na ideji, da z določeno toleranco lahko sklepamo o celotni populaciji na podlagi majhne podmnožice naključno izbranih podatkov. Na osnovi naključno izbrane skupine več sto ljudi lahko napovemo glasovalno obnašanje v celotni državi. Pri preprostih vprašanjih ta postopek dobro deluje, ampak odpove, ko želimo vrtati navzdol v podskupine v vzorcu. Kaj pa, če želimo vedeti, kdo je za kandidata volil samsko žensko mlajšo od 30 let? Nenadoma je naključni vzorec v veliki meri neuporaben, saj je lahko le nekaj ljudi s temi značilnostmi v vzorcu, to pa je premalo za smiselni sklep o tem, kako bo podmnožica glasovala. Ampak če uporabimo vse podatke (n = vse, da uporabimo izrazoslovje statistike), problem izgine! Ta primer odpira še eno pomanjkljivost uporabe nekaterih podatkov namesto vseh. V preteklosti, ko so ljudje zbrali le malo podatkov, so se pogosto morali že na začetku odločiti, kaj zbirati in kako uporabiti. Danes, ko lahko zberemo vse podatke, ni treba vedeti vnaprej, kaj nameravamo uporabiti in za kaj. Seveda ni mogoče vedno zbrati vseh podatkov, je pa vedno bolj izvedljivo, da zajamemo veliko več kot le vzorec, ki bi bil reprezentančen za vse. V primeru masovnih podatkov ne gre samo za ustvarjanje nekoliko večjih vzorcev, ampak za izkoriščanje po možnosti čim več obstoječih podatkov o tem, kaj proučujemo. Še vedno potrebujemo statistiko, vendar se nam ni več treba zanašati na majhne vzorce. Včasih moramo pustiti, da govorijo podatki sami. Načina razmišljanja o podatkih – od nekaj do vseh – povzroči tretjo spremembo: od vzročnosti do korelacije. To predstavlja premik od večnega poskusa razumeti globlje razloge, kako svet deluje, k preprostemu učenju o povezanosti med pojavi. Poznavanje vzrokov je zaželeno. Problem pa je, da je vzroke pogosto izjemno težko ugotoviti, in velikokrat, ko mislimo, da smo jih ugotovili, ni nič drugega kot iluzija. Vedenjska ekonomija je pokazala, da ljudje vidijo vzroke, tudi če jih še ni. Zato moramo biti še posebej pazljivi, da preprečimo varljive kognitivne pristranskosti. Kot smo že rekli, dober primer, zakaj so korelacije, ki jih vidimo z masovnimi podatki, zelo koristne, pa tudi če so temeljni vzroki še vedno nejasni, predstavlja Googlov model za napovedovanje gripe. Mnogi tehnologi verjamejo, da so masovni podatki nastali v digitalni revoluciji, ki jo je označila komercialna uporaba osebnih računalnikov v začetku osemdesetih let prejšjega stoletja, ko je zahvaljujoč napredku na področju mikroprocesorjev in računalniškega spomina bilo mogoče analizirati in shranjevati informacije kot nikoli prej. Vendar je le navidezno tako. Računalniki in internet so z znižanjem stroškov za zbiranje, shranjevanje, obdelavo in izmenjavo informacij zagotovo omogočili pojav masovnih podatkov, ki so v bistvu le zadnji korak v prizadevanju človeštva, da razume in kvantificira svet. Ko enkrat stvari pretvorimo v podatke, lahko preoblikujemo njihov namen, podatke pa podamo v novih oblikah vrednosti. Iz teh podatkov, ki jih je mogoče shraniti in analizirali, pa lahko izvemo več o stvareh, OCENA