Veliko podatkovje
Pozdravljeni v novi oddaji Frequenza della scienza. Tokrat bo govora o velikem podatkovju, angleško big data, vendar na čisto svojski način. Podatkov in vsega, kar spada zraven, se bomo lotili sociološko.
Digitalna sociologija se ukvarja s proučevanjem vpliva digitalnih medijev in tehnologije na medosebne odnose, vedenje ter dojemanje sebe. To področje se je, kljub temu da sociologi digitalno tehnologijo proučujejo in uporabljajo že več desetletij, pojavilo šele pred nekaj leti. Razvoj tehnologije ima nedvomno velik vpliv na okolje in družbo, ki pa ni vezan na neposredno tehnično izboljšavo, temveč interakcijo tehnologije z družbo. Veliko podatkovje predstavlja eno izmed novejših metodologij, ki je vedno bolj popularna, a se jo še prevečkrat uporablja nekritično. Namen te oddaje pa je ravno to: kritično ovrednotenje uporabe velikega podatkovja.
Napredek v tehnologiji je omogočil analizo ogromnih baz preko umetne inteligence in strojnega učenja, ki sta zmožna prepoznati vzorce, ustvarjati napovedovalne modele in optimizirati izide napovedi. Podatke, uporabljene v analizi, pa proizvajamo uporabniki in uporabnice sami z redno identifikacijo v uradnih ustanovah z osebnim dokumentom, pametnimi telefoni in uporabo socialnih omrežij ter medmrežja nasploh. Čeprav je analiza velikega števila podatkov že nekaj časa v uporabi znotraj meteorologije, finančnega sektorja in daljinskega merjenja, je tovrstna analiza v socioloških raziskavah postala pogostejša šele nedavno. Zaradi relativne novosti uporabe omenjene metode, še ne vemo, kako ta vpliva na ljudi in raziskovanje. V oddaji bomo tako obdelali prednosti in omejitve metode nasploh ter obravnavali neskončno zbiranje podatkov uporabnikov na spletu in napravah. Na koncu se bomo vprašali, kako ti podatki spreminjajo znanstveno raziskovanje.
Matematičarka Tea Brašanac je na kratko predstavila definicijo velikega podatkovja.
Veliko podatkovje je zbirka podatkov, ki obsega več terabajtov ali celo petabajtov informacij. Ustvarjeno je z veliko hitrostjo in nastaja v resničnem času, torej že medtem ko merjen proces poteka. Vsebuje raznolik nabor strukturiranih in nestrukturiranih podatkov, ki vključujejo skoraj celotno populacijo ali sistem. Baze podatkov omogočajo združevanje in primerjanje informacij iz več baz skupaj, kar jim omogoča razširjanje na druga polja in hitro večanje baze.
Raziskovalna metodologija velikega podatkovja povezuje tehnologijo, analizo in stališča do metode zbiranja neskončne količine podatkov. Tehnološki napredek se kaže v povečanju računske zmožnosti računalnikov in programiranja algoritmov, analiza pa omogoča iskanje vzorcev v podatkih z namenom uporabe v ekonomiji, politiki in tehničnih vedah. Mitologija se v veliko podatkovje vpisuje kot občutek o večji objektivnosti, pravilnosti in resničnosti znanja, ki ga omogoča številčnost podatkov. Čeprav že samo ime veliko podatkovje nakazuje na velikost baze, je pomembnejša sama zmožnost iskanja, združevanja in povezovanja teh ogromnih baz. Veliko podatkovje samo po sebi nima vsebine.
Za razumevanje ogromnih baz potrebujemo tehnologijo, ki te podatke uredi in iz njih naredi napovedovalne modele. To je postalo možno šele z napredkom v strojnem učenju in večjo zmogljivosto računalnikov. Napovedovalni modeli abstraktno predstavljajo procese, ki se dogajajo v ozadju. Nastanejo preko uporabe dostopnih podatkov o vhodnem in izhodnem signalu, na podlagi katerih algoritmi napovejo izide različnih situacij. Če imamo podatke o vremenskih razmerah v prejšnjih letih in nedavne podatke o spremembi zračnega tlaka, temperature in padavinah lahko napovemo vreme v naslednjih dneh. Ključna značilnost dobrih napovedovalnih modelov je, da se prilagajajo spremembam pogojev, kar poveča njihovo uspešnost napovedi oziroma povedano drugače, da se predvidena situacija res zgodi.
Pomembnost za raziskovanje se kaže v radikalni spremembi, ki jo veliko podatkovje vpeljuje na epistemološki in etični ravni, k čemur se bomo vrnili proti koncu oddaje. Spreminja načine konstitucije znanja, kjer odkriva nove objekte in metode védenja; proces raziskovanja; načine, kako obravnavamo informacije; naravo in kategorizacijo realnosti oziroma redefinira družbeno življenje. Prav tako se analiza velikega podatkovja sooča s problemi preobilnosti, izčrpnosti, raznolikosti, dinamičnosti, in negotovosti podatkov. Zraven tega za zbranimi podatki ni raziskovalnega vprašanja, temveč so zgolj stranski produkt bolj ali manj slučajno merjenih aktivnosti.
Zaradi večje hitrosti analize se je spremenil način dela iz raziskovanja s skromnimi podatki v raziskovanje z ogromnimi bazami. Iz statičnih posnetkov v dinamične procese. Iz grobih poenostavitev v natančne razdelave. In iz preprostih napovednih modelov v sofisticirane simulacije. Od klasičnih metod zbiranja podatkov, kot so ankete in vprašalniki, se veliko podatkovje razlikuje po svoji globini in širini, raznolikosti, kontinuiranosti, izčrpnosti, fleksibilnosti in odnosnosti zbranih informacij.
Podatki se zbirajo preko klikov na internetu, merjenja senzorjev, skeniranja predmetov, na primer kod in osebnih dokumentov, ter objav uporabnikov. Podatkovne analize so pred velikim podatkovjem črpale iz redkih, statičnih, znanstveno vzorčenih baz, ki so imele nizko ekološko vrednost oziroma niso bile prenosljive v vsakdanje življenje. Podrejale so se strogim predpostavkam o neodvisnosti, normalnosti in stabilnosti spremenljivk. Nov epistemološki pristop ogromnih baz pa omogoča vpoglede, ki izhajajo iz samih podatkov, ne pa testiranja hipoteze, na podlagi katere so šele zbrani podatki.
Veliko podatkovje vpeljuje dva tipa socialnih omrežij na podlagi podatkovnih sledi – artikulirana omrežja in vedenjska omrežja. Artikulirana omrežja nastanejo preko tehničnih mehanizmov zbiranja podatkov, kot je število prijateljev, stikov ali sledilcev. Vedenjska pa preko komunikacijskih vzorcev povezav med ljudmi, na primer enaka GPS lokacija in izmenjava sporočil. Oboje ima raziskovalno uporabnost, vendar ne more nadomestiti osebnih omrežij.
Melodysheep: The Quantum World
Paradigme razvoja podatkovnih analiz
Thomas Kuhn je v filozofiji znanosti postavil teorijo o razvoju znanosti s konceptom paradigme. Znanost je najprej v predparadigmatskem stanju, ko šele vzpostavlja svoje področje in načine raziskovanja. V paradigmatskem stanju ima znanstveno področje določen nabor problemov in metod njihove obravnave. Z vstopom novih teorij in metod pride do znanstvene revolucije, ki pretrese uveljavljene temelje in spet vzpostavlja trdno paradigmo.
V nasprotju s klasičnim Kuhnovim razvojem znanstvenih paradigem je Jim Gray [đim grej] v razvoju oblik podatkov in metod analize predlagal štiri zgodovinske paradigme. Prva je eksperimentalna znanost pred znanstveno renesanso, utemeljena na empiricizmu, ki opisuje naravne zakonitosti. Druga je teoretična znanost pred izumom računalnikov, ki modelira in generalizira ugotovitve v obliki formul in enačb. Tretja je računalniška, komputacijska znanost pred vstopom velikega podatkovja, ki simulira kompleksne fenomene. Zadnja, četrta, je eksploratorna znanost v dobi velikega podatkovja, za katero so značilne ogromne baze podatkov, rudarjenje podatkov in eksploracija. In v tej četrti se nahajamo danes, ko pri raziskovanju ne rabimo postavljati hipotez na podlagi teorije, temveč pogledamo v podatke in iz povezav šele ustvarimo hipotezo.
Pristopa brez predhodnih hipotez se poslužujejo empiricisti. V raziskovanju velikega podatkovja zahtevajo empirične dokaze, najpogosteje preko eksperimentalnega pristopa. Pogled empirikov vidi v novi metodologiji tudi novo dobo empiricizma, kjer obilnost podatkov in nove tehnike njihove obdelave omogočajo zaključke brez vpeljave teorije.
Podatki po mnenju empiricistov zajamejo celoto fenomenov in producirajo polnopomenske in resnične vzorce ter omogočajo vpogled v kompleksne fenomene. S tem se spremeni tudi odnos med korelacijo in vzročnostjo. Analizi je dovolj korelacija, ki, kot trdi Chris Anderson, urednik revije Wired: »preseže vzročnost in omogoča napredek znanosti brez koherentnih modelov, enotnih teorij in mehanističnih razlag nasploh«. Iz tega sledi, da v raziskovanju ni več potrebe po vnaprejšnjih hipotezah in modelih, ki bi jih naknadno preverili z eksperimenti. Znanstveni izsledki so že znotraj podatkov in jih ni treba še enkrat izmeriti. Ob ogromnem naboru spremenljivk in možnih statističnih testov bomo z nepremišljeno uporabo številnih metod hitro prišli do napake lažnega učinka. Pri tej napaki se pojavijo statistično pomembne povezave, ki jih v resnici sploh ni.
Prednost raziskovanja brez teorij je odkrivanje neopaženih, nepredvidenih povezav v bazi podatkov, večja pomembnost korelacije pa se veže tudi na prednost napovedne vrednosti pred razlago. Ni več treba razumeti sveta in tega, kako deluje, dovolj je, če znamo napovedati fenomene v njem. Povedano drugače, ni treba vedeti veliko o vremenu, važno je, da postavimo dobro vremensko napoved. Kontekst postane nepotreben, s čimer se izniči potreba po strokovnjakih za posamezne fenomene, ki so zdaj pomensko jasni vsakemu, ki zna razbrati statistično mero ali vizualizacijo. Z razvojem boljših programov za napovedovanje vremena tako, vsaj po empiricističnem prepričanju, ni več potrebe po meteorologih, ki razumejo delovanje vremena.
Pomanjkljivosti empiricističnega pristopa se nanašajo na pristranski odnos do podatkov in tehnologije. Prav tako pomanjkljivosti zadevajo specifično ontologijo in epistemologijo analize. Empiriki odgovarjajo na vprašanje »Kaj so podatki?«, medtem ko ekspertne raziskovalce in raziskovalke zanima tudi »Zakaj so podatki takšni, kot so?«. Vsi podatki, tudi znotraj velikega podatkovja, so ustvarjeni preko človeško narejenih mehanizmov – programov in algoritmov. Ti so bili bolj ali manj rigorozno znanstveno vzpostavljeni in preverjeni. Temeljijo na prejšnjih spoznanjih, teorijah, treningu, ki so sami odvisni od izkušenj in znanja strokovnjakov in strokovnjakinj.
O pripisu pomena velikemu podatkovju je spregovorila Tea.
Človeško ustvarjeni algoritmi so prepredeni s kontekstom znanstvenega pristopa in vrednot programerjev in programerk. Vpliv raziskovalcev na podatkovne baze se navsezadnje kaže tudi preko interpretacije, na katero vplivata razumevanje in pristranskost analitika. Problem nastane, ko baze podatkov kažejo korelacije med nepovezanimi pojavi, kar nastane kot artefakt statističnega postopka. Tovrstne korelacije nimajo ekološke veljavnosti, saj so brez povezave z družbeno resničnostjo. Vse pomanjkljivosti empiricističnega razumevanja velikega podatkovja kažejo na poenostavljanje sicer kompleksnih problemov.
Nasproti empiricizu je podatkovna znanost oziroma data-driven science [dejta driven sajns]. Namesto uporabe zgolj induktivnega sklepanja, ki je značilno za empiricizem, komplementarno uporablja induktivno sklepanje, torej sklepanje iz posamičnega na splošno, deduktivno sklepanje oziroma iz splošnega na posamično in abduktivno sklepanje oziroma iz opazovanega fenomena k najbolj preprosti razlagi. Podobno kot empiricizem nastopa proti ugotovitvam iz teorije klasičnega deduktivnega eksperimentalnega pristopa in je vezana na ugotovitve iz samih podatkov.
Za razliko od empiricizma pa za podatkovno znanost dobra napoved ni dovolj, temveč so rezultati umeščeni v razvito teoretsko perspektivo. Procesiranje, obdelava in analiza podatkov so podprti s teoretično podkrepljenimi predpostavkami, ki narekujejo tudi primerne tehnike in metode. Namesto da bi podatki bili podvrženi vsem možnim modelom in analizam, se uporabijo teoretično smiselne odločitve o postopkih, ki nato proizvedejo najboljše rezultate.
Induktivno pridobljeni rezultati predstavljajo osnovo za vzpostavitev hipotez in deduktivno testiranje njihove veljavnosti. Razlika s klasičnim eksperimentalnim pristopom je tako v načinu vzpostavljanja teorij. Podatkovni znanstveniki v svojem pristopu vidijo možnost celostnih in izčrpnih modelov ter teorij kompleksnih sistemov z možnostjo interdisciplinarnosti. Iz tega sledi boljše razumevanje raznolikih, medsebojno povezanih procesov, ki služijo kot osnova modelom za napovedovanje dolgoročnih trendov in adaptacij.
Melodysheep: We are all connected
Analiza velikega podatkovja kot metode
Vzorčeni podatki so pogosto nezanesljivi, vzorčeni iz specifičnih podskupin prebivalstva, kot so na primer študenti, in zaradi tega predstavljajo nereprezentativen vzorec. Uporaba velikega podatkovja z analizo teh podatkov privede do odkrivanja vzorcev in povezav, kjer teh sploh ni. To se zgodi zaradi ogromnega števila podatkov, v katerih lahko najdemo naključne povezave. Ogromna količina podatkov, ki imajo omejeno informativnost, tako ni nujno najboljša pot. Manj informacij v podatkih omeji tudi možna vprašanja in analize, na podlagi katerih lahko pridemo le do vsebinsko in kontekstualno omejenih zaključkov.
Kot primer podatkov izven konteksta lahko vzamemo informacije, pridobljene iz Twitterja, saj so geografsko in kulturno omejene. Na podlagi analize Twitterjevih baz so ugotovili, da japonski uporabniki in uporabnice popolnoma drugače uporabljajo to omrežje. Ta fenomen, kjer se globalno dostopna storitev razvija izolirano , so poimenovali galapaški sindrom.
Poleg problema nereprezentativnosti se pojavlja tudi problem enačenja spletnega računa uporabnika in uporabnika samega. Uporabniki v socialnih omrežjih posredujejo želeno sliko sebe, uporabniške račune lahko uporablja več ljudi ali pa ima en posameznik več uporabniških računov. Podatki, pridobljeni z združevanjem baz podatkov, izgubijo pomen in vrednost, ko jih vzamemo izven konteksta. Ne glede na metodo zbiranja in obdelovanja je za dobro analizo najbolj pomembna kvaliteta podatkov, ki imajo veliko informacijsko vrednost.
Za vzpostavitev modelov se morajo raziskovalci odločiti, katere informacije bodo vključili, in kako bi poenostavili kompleksnost realnosti na formule, iz katerih lahko program napoveduje zaključke. Modeli imajo ogromne slepe pege, ki odsevajo sodbe in prednostne naloge raziskovalcev, a večino časa sicer ne vplivajo na izide. Očitno je, da modeli odražajo cilje in ideologijo raziskovalcev, saj so sprogramirani tako, da so mnenja vkorporirana v matematično in programsko strukturo. Torej, kateri podatki se upoštevajo in kateri ne. Ravno zato pa analiza big data ni tako objektivna, kot se morda zdi na prvi pogled.
Modeli in programski sistemi, ki v vedno večji meri posegajo v naša življenja, imajo človeške predsodke, nerazumevanja in pristranskosti vprogramirane v programsko kodo. Te pomanjkljivosti so odvisne od programerjev, ki so pogojeni z lastnim znanjem in kulturo. Vgrajene pristranskosti se kažejo kot modelu lastna realnost, ki je na videz nevtralna in objektivna, na podlagi katere se upravičuje napovedi.
Modelom strojnega učenja zraven pristranskosti velikokrat umanjkajo podatki o vedenjih, na podlagi katerih napovedujejo rezultate. Nadomestijo jih z nadomestnimi podatki, ki neposredno ne odražajo proučevanega vedenja. Tovrstno poenostavljanje pogosto privede do napak. Zaradi zagonetnosti programa, ki privzame absolutno objektivnost, oškodovan posameznik nima moči pokazati na napako. Algoritmi zaradi predpostavljene nevtralnosti ne potrebujejo toliko dokazov o pravilnem napovedovanju kot človeške žrtve programske opreme potrebujejo za napačno napoved programa.
Sociološka analiza velikega podatkovja
Digitalno družboslovje in humanistika sta zvedena na šibko in površinsko analizo, ki je redukcionistična in groba. Zaradi tega ostajajo strukturna razmerja znotraj analize velikega podatkovja še vedno zakrita. Analiza žrtvuje svojo kompleksnost, kontekstualnost, specifičnost in globino za možnost lestvičenja na visoki ravni, avtomatičnost in opisne vzorce. Brez kontekstualnega znanja se zadovolji z opažanjem vzorcev, ne pa tudi z njihovo obrazložitvijo. Spregleda dimenzijo institucij, ki uravnavajo vedenje posameznikov, ker ne upošteva političnih in ekonomskih struktur. Preprosto ponazoritev nudijo študije, ki ob zbranih podatkih iz specifične aplikacije, ki si jo uporabniki naložijo na iPhone, ne upoštevajo, da so uporabniki Applovih proizvodov iz specifičnih socialnih slojev in držav. Znotraj številnih korelacij se pomembne ugotovitve o strukturni in institucionalni ravni izgubijo.
Politika, ekonomija in zakonodaja imajo različne cilje in različen vpliv na produkcijo znanja, ki pa znotraj velikega podatkovja ostaja neprevprašano. Delo z velikim podatkovjem preveva političnost in vpetost v specifično ideologijo. Znanje in pričakovanja raziskovalcev ter umeščenost raziskave v prostor in čas vplivata na rezultate. Kaj in kako se bo raziskovalo, je odvisno tudi od financiranja in razmerij moči med lastniki baz in raziskovalci.
Prikrivanje vrednot producentov in analitikov podatkov dela raziskovanje na videz nevtralno, čeprav je to polno kulturnih konvencij, značilnih za tehnološko razvite države. Uporabniki pametnih naprav so geografsko omejeni, in ne pokrivajo celotnega sveta. Dostop do podatkov je še bolj omejen glede na zakone o varstvu podatkov, lokacijo podjetja, ki zbira podatke, in jezik. Podjetja z največjimi bazami se v glavnem nahajajo na geografsko strnjenem področju – v Silicijevi dolini v Združenih državah Amerike. Uporaba baz in izsledkov je tako pod vplivom ameriških zakonov in politike ter ideoloških prepričanj raziskovalcev.
Še najbolje se metodologija izkaže v razumevanju intersubjektivnosti preko proučevanja socialnih omrežij. Ločuje artikulirana in vedenjska omrežja, ki so dobra podlaga za raziskovanje navad, tradicij in vsakodnevnih dejanj posameznikov. Podatkovno zelo natančno popiše količinske ravni odnosov in prepozna trende. Namerno pozablja metafizične razsežnosti oziroma pomene, verjetja ter izkušnje in normativne razsežnosti oziroma etiko ter moralo človeškega delovanja. Hkrati je metodologija nezmožna odkriti notranje psihološke značilnosti človeka, ki producirajo odličnost, in razložiti nepredvidljivo vedenje ljudi v družbi.
S tem področjem se ukvarja tudi knjiga Weapons of math destruction avtorice Cathy O’Neil, ki jo je na kratko predstavila Tea.
Razvoj interneta, zmogljivih osebnih računalnikov in programske opreme je razširil podatkovno znanost na veliko število ljudi. Veda, ki je bila včasih tuja vsem razen znanstvenikom, je zdaj dostopna tudi ljudem brez prave izobrazbe in treninga. Nekateri sociologi to označujejo kot krizo v empirični sociologiji. Kar hkrati kaže na elitizem sociološke vede in resno zaskrbljenost nad razvrednotenjem teoretskega presežka sociologije. Na videz širok dostop je v resnici omejen na velike korporacije in podatkovna podjetja. Inovacije znotraj raziskovalnih metod so prisotne znotraj polja komercialne sociologije, ki ustvarja boljše načine oplajanja kapitala.
Posamezniki lahko iz osebnega računalnika dostopamo le do omejenih podatkov, namenjenih naši zabavi, in ne poglobljeni analizi. Omejen dostop do podatkov omejuje tudi nabor zastavljenih vprašanj. Veliko podatkovje vključuje tri tipe ljudi: tiste, ki ustvarjajo podatke, tiste, ki jih zbirajo, in tiste, ki jih analizirajo.
Ustvarjalci podatkov večinoma ne spadajo v skupino ljudi, ki bi do njih imeli dostop. Vmesno stopnjo predstavljajo lastniki baz, ki na njih kapitalizirajo svoje premoženje. Od njihove strukturne moči pa so odvisni analitiki, ki so podrejeni omejitvam in ciljem lastnikov.
Derrida efektivno demokratizacijo pogojuje s participacijo in dostopom do arhivov, njegovi vzpostavitvi in interpretaciji, kar je trenutno nasprotje sferi digitalizacije podatkov. Zgodovinski elitizem visoko izobraženih sociologov je zamenjal elitizem lastnikov baz, ki z njimi podjetniško razpolagajo. Vpliv družboslovnih raziskav se je umaknil iz akademskih krogov in odprl medijskemu ter tržnemu mehanizmu.
Ob nenehnem zbiranju podatkov uporabnikov in tržnem razpolaganju z bazami se postavlja vprašanje etičnosti. Od razmerij moči med sistemi, ki usmerjajo prakso, in tistimi, ki jo regulirajo, je odvisno tudi razmerje moči med trženjem podatkov in privatnostjo uporabnika. Čeprav so v podatkih zabeleženi uporabniki, in ne posamezniki, se lahko z združevanjem baz identificira posameznika in ga izpostavi tržni diskriminaciji.
Brez zakonov in predpisov o varstvu zasebnih podatkov se posameznikova uporabniška izkušnja spremeni v proizvajanje kapitala za podjetja, ki trgujejo s podatki, in druge, ki na podlagi teh podatkov upravljajo z vedenjem prebivalstva. Razpon uporabe podatkov je velik, vse od nedolžnih marketinških algoritmov, ki v naše brskanje vsiljujejo oglase, do določitve tarč brezpilotnih letal z razstrelivom.
Vprašanje privatnosti lahko razširimo v vprašanje širše odgovornosti. To zahteva temeljni premislek o uporabi velikega podatkovja v odnosu do nadrejenih, kolegov, udeležencev in javnosti. Raziskovalci velikega podatkovja pozabljajo na razliko med biti v javnosti in biti javen, ki je ključna za razumevanje kršenja privatnosti uporabnikov. Čeprav so njihovi podatki javni, to še ne pomeni dovoljenja za njihovo uporabo v kakršen koli namen.
Socialna politika je sprejela tehnološki napredek kot možnost izboljšanja sistema v bolj pravičnega, transparentnega in učinkovitega. V nasprotju s pričakovanji pa je algoritemski pristop, ki je zamenjal človeško obravnavo, v programu imel vgrajen rasizem, seksizem in razredno neenakost. Že strojno učenje vsakodnevnega jezika, so ugotovili raziskovalke in raziskovalci, se izrazi v človeku podobnih pristranskostih in diskriminaciji. Sprememba sistema socialne politike nakazuje, da se mora program pravilno odločiti med številnimi posamezniki, kjer javno financirane službe nimajo dovolj sredstev, da bi to opravljali svetovalni delavci in delavke.
Z vprogramirano neenakostjo pa pravičnost novega sistema izgine. Na drugi strani kovanca pa imamo prestižne šole in podjetja, ki ne glede na dostop do najnovejše tehnologije raje uporabijo človeški pristop za izbiro najboljših kandidatov. S tem pokažejo na prepoznane slabosti algoritmov izbire kadra, ki ne morejo upoštevati vseh posebnosti, olajšav in prednosti človeškega delovanja.
Natančen primer nepravičnosti pri uporabi velikega podatkovja je na podlagi bančnih kreditov predstavila Tea.
Proti programsko vgrajenim sistemskim neenakostim posameznik ali posameznica težko zmaga. Vpisane neenakosti niso krivda programov, temveč ljudi, ki so jih ustvarili. Pri jezikovno zahtevnih programih, kjer so uporabljene velike baze besed, se je program naučil povezovati ženske z domom in moške z inženirstvom, ameriške belce s prijetnimi besedami in Afroameričane z negativnimi besedami. V programe se tako iz baz podatkov vpisujejo človeške pristranskosti, v katere bo treba v prihodnosti aktivno posegati, da bomo namesto reprodukcije struktur neenakosti stremeli k poti, kjer bo možno njeno zmanjšanje.
Veliko podatkovje in na njem temelječi modeli se izkažejo za nezadostne, saj človeška družba ne deluje tako pravilno, mehansko in racionalno kot pričakujejo programi. Družba je kompleksna, naključna in razmetana, polna je paradoksov, kontradikcij in nepredvidljivih situacij. Zaradi tega jo je nemogoče reducirati na nekaj matematičnih formul, saj te nikakor ne morejo upoštevati širših sistemov, ki vplivajo nanjo. Ali kot pravi kritik velikega podatkovja Kitchin: »Redukcija kompleksnosti na abstrakcijo subjektov, ki zapolnjujejo univerzalne modele, izvaja simbolno nasilje nad načinom produkcije znanja«.
Veliko podatkovje je tehnološko kompleksna metodologija. Zaradi nerazumevanja osnovnih principov lahko spregledamo pomembne posledice njegove uporabe. Naša naloga na tem mestu je konceptualni pretres metode in ustvarjanje predlogov dobre prakse. Za to je potrebno tehnično znanje, ki tako strokovnjakom kot laikom danes pogosto umanjka. Če želimo prispevati k debati o podatkovni znanosti in njenih političnih implikacijah, je treba poleg orisa te metodologije poseči tudi po praktičnih poskusih pozitivnih zmožnosti velikega podatkovja.
Sociologijo in veliko podatkovje je povezala Ana.
Urednikovala sta Zarja in Arne.
Podlage: Blue Planet OST
Komadi: Melodysheep: We are all connected, The quantum world, A wave of reason
Prikaži Komentarje
Komentarji
To je dobro ja, bravo! Še malo, pa boste pri vprašanju kognicije :-) Zanimivo je tudi vse kar izpostavljate - korelacija je dovolj, vprašanje konteksta, napoved fenomenov, kaj je to sploh celota fenomenov in potem ta enigma družbene resničnosti. Zanimivo bi bilo izpostaviti, kaj je na nasprotnem polju empiricizma - kvalitativne raziskovalne metode, ki nikoli tudi ne morejo se odcepiti od subjektivne kvalitete. Res zanimivo, bravo! In kaj sploh čaka Sociologijo v prihodnosti - popolno izumrtje?
V bistvu je postavljanje hipotez izrazita lastnost kvantitanih raziskav. Vse kvalitativne raziskovalne tehnike uporabljajo raziskovalna vprašanja in ne hipotez, so tudi mnogo bolj kreativne. Kvalitativne raziskovalne metode so mnogo bolj odprte tudi za kontekstualizacijo, čeprav že samo raziskovalno vprašanje omejuje in je odvisno od prej nakopičenega znanja tistega, ki sprašuje. Ampak nekje je pač potrebno začet.
Je pa zanimiva ta neverjetna ihta empiricistov, se strinjam, še posebej če jim je ušlo, da kvantitativne raziskave pri razlagi družbenih pojavov ne presežejo nivoja pojasnjene variabilnosti - a je 30% ali celo 25% ali še manj? Vem, da je kar močno pod 50%.
Se pravi big data ideology postavi zanimiv zakon: tisto kar šteje za raziskovanje je merljivo v številkah. Neki v tem smislu. Kar radikalni redukcionizem v glavo, bi človek rekel. Ampak to je bilo že kar dolgo moč napovedati. Na koncu vsak hoče 5 stavkov, črno belo tehniko, tako da vsi razumemo po kmečko in to je to.
Jaz bi pa dodal še tole: samo veliki entuziasti danes govorijo o konceptu paradigm shift. V bistvu že kar veliko časa big data maherji, pač dajejo vtis, da kužijo zadeve. To je res pomembno. Čim več cifr in grafov napopajo v reporte, čim manj ljudi šteka in to v celoti čita - to je bolje, je večji učinek. Pri javnih predstavitvah je folk pač fasciniran in mal odsoten in vsi dajejo vtis, da štekajo.
Imam frendico, ki je imela kol matematiko celo srednjo šolo, na faksu je tud šlo bolj v sodelovanju, potem pa je postala podjetnica: podatkovna vele-maherca. Skuži algoritemčke, rukne not cifre, zažene zadevco in potem se potrudi pri interpretaciji.
V prostem času piše tudi pravljice za otroke.
No, kakorkoli že gledano. Kompleksnost bivajočega kot tudi družboslovnega in humanističnega je prevelika, da bi se zadovoljili z big data ideloškimi nastavki. Na koncu se kvantitativni analitiki ob realiti čeku itak poserjejo. To bi lahko bil največji adut prihodnosti. Danes kar veliko ljudi ve, da se s kvantitativnimi analizami v družboslovju ukvarjajo samo mazohisti in res ozkogledi empirični ideologi. Je pa velik problem širjenje empiricizma v vse pore družbenega - od psihologije, okoljske znanosti do političnih ved, da o ekonomiji sploh ne zgubljamo besed. To bo tudi vnaprej radikalno steriliziralo vedenje zahodnega belega sveta, kar je res škoda, glede na to, koliko je bilo doseženega tam od renesanse dalje. Tu je ta bogoslužna ideja odrešitve spet prisotna, ki jo zahod vidi danes v mašinah in algoritmih, hitrosti, racionalnosti in efektivnosti.
"Empirizma" je pri kritičnih teorijah premalo. Vsi bi samonanašajoče bluzili, noben ne bi preverjal teorij (z empirijo).
Če je vremenska napoved točnejša in daljnosežnejša, je model, iz katerega smo izpeljali napovedi, boljši - vremenske spremembe z njim razumemo in z modelom o vremenskih spremembah veliko vemo. Mogoče je mišljeno, da model ne pojasni celotne fizike vremenskih sprememb, vendar se mi to zdi deplasiran argument. Ali gremo čez pet dni v hribe ali ne, je pomembna odločitev, za katero je v vsakem primeru fino imeti čim točnejše vremenske informacije.
Komentiraj