29  Računalna društvena znanost, umjetna inteligencija i budućnost društvenih istraživanja

Zamislimo istraživačicu koja želi razumjeti kako se narativ o klimatskim promjenama u hrvatskim medijima mijenjao tijekom posljednjih deset godina. Na raspolaganju su joj deseci tisuća novinskih članaka objavljenih na portalima poput Index.hr, Jutarnjeg lista i Večernjeg lista, stotine tisuća komentara čitatelja, zapisi o dijeljenju tih članaka na društvenim mrežama te metapodaci o autorima, datumima i kategorijama objava. Tradicionalnim pristupom, u kojem bi istraživačica ručno čitala i kodirala svaki tekst, analiza ovog korpusa zahtijevala bi godine rada. Čak i kada bi posjedovala neograničeno vrijeme, ručna analiza ne bi mogla zahvatiti dinamiku širenja informacija u stvarnom vremenu, identificirati skrivene strukture komunikacijskih mreža niti pratiti suptilne promjene u jezičnom uokvirivanju teme kroz vrijeme. Suočena s ovim ograničenjima, istraživačica se okreće računalnim metodama koje joj omogućuju automatsku klasifikaciju tematskih okvira, analizu sentimenta, detekciju zajednica u mrežama dijeljenja te vizualizaciju temporalnih trendova, i to na cijelom korpusu umjesto na malom uzorku.

Upravo taj raskorak između istraživačkih pitanja koja želimo postaviti i mogućnosti koje tradicionalne metode pružaju čini polazište za razumijevanje onoga što se u suvremenoj literaturi naziva računalnom društvenom znanošću (eng. Computational Social Science). Nije riječ samo o novim alatima koji ubrzavaju postojeće postupke, već o kvalitativno drugačijem pristupu koji omogućuje postavljanje pitanja koja ranije nisu bila zamisliva. Dok su prethodna poglavlja ove knjige detaljno obradila specifične računalne metode, analizu teksta u poglavlju 11 te analizu mreža u poglavlju 12, ovo poglavlje pruža širi paradigmatski okvir koji omogućuje razumijevanje načina na koji se te metode uklapaju u transformaciju društvenih znanosti u cjelini. Istovremeno, poglavlje povezuje računalne pristupe s temeljnim metodološkim pitanjima obrađenima u ranijim dijelovima knjige, od nacrta istraživanja (poglavlje 3) i uzorkovanja (poglavlje 3, odjeljak 3.6) preko valjanosti i pouzdanosti (poglavlje 14) do etičkih načela (poglavlje 13).

Poglavlje je organizirano u šest tematskih cjelina. Prvo se razmatra što računalna društvena znanost jest, kako se razvijala i čime se razlikuje od tradicionalnih pristupa društvenom istraživanju. Potom se analiziraju epistemološke implikacije računalnog obrata, tj. načini na koji nove vrste podataka i metoda mijenjaju samu narav pitanja koja možemo postaviti i odgovora koje možemo dobiti. Treći odjeljak posvećen je algoritamskoj posredovanosti suvremene komunikacije, fenomenu koji čini razumijevanje računalnih sustava nužnim preduvjetom za istraživanje suvremenih komunikacijskih procesa. Četvrti odjeljak razmatra nove metode koje nadilaze klasičnu analizu teksta i mreža, uključujući velike jezične modele, vizualnu analizu i temporalne pristupe. Peti odjeljak gradi argument za programsku pismenost kao temeljnu kompetenciju istraživača komunikacije, razmatrajući reproducibilnost, fleksibilnost i transparentnost istraživačkog procesa. Poglavlje zaključuje vizijom budućnosti komunikologije kao hibridne discipline koja integrira tehničke i društvenoznanstvene kompetencije.

30 Što je računalna društvena znanost

Računalna društvena znanost predstavlja interdisciplinarno znanstveno polje koje koristi računalne alate i tehnike za proučavanje društvenih fenomena na skalama i s preciznošću koje tradicionalnim metodama nisu bile dostupne. Sam pojam u znanstvenu je literaturu formalno uveden člankom Lazera i suradnika objavljenim 2009. godine u časopisu Science, u kojem autori artikuliraju viziju nove istraživačke paradigme koja kombinira mogućnosti obrade velikih podatkovnih skupova s teorijskim tradicijama društvenih znanosti (Lazer i sur., 2009). Međutim, potrebno je napomenuti da primjena računalnih metoda u istraživanju komunikacije ima znatno dužu povijest nego što bi sugerirala recentna popularnost toga pojma.

30.1 Povijesni korijeni

Već su rani teoretičari analize sadržaja poput Bernarda Berelsona prepoznali potencijal mehanizacije analitičkih postupaka, premda su tehnološke mogućnosti njihova vremena bile znatno ograničenije od onoga čime danas raspolažemo (Berelson, 1952). Konkretni pokušaji računalne analize teksta datiraju iz šezdesetih godina dvadesetog stoljeća kada su istraživači poput Philipa Stonea razvili sustav General Inquirer koji je omogućavao automatsku kategorizaciju tekstualnih jedinica prema unaprijed definiranim rječnicima (Stone i sur., 1966). Taj sustav, koji je radio na sveučilišnom računalu Harvard, brojao je riječi iz unaprijed definiranih semantičkih kategorija i tako proizvodio kvantitativne profile tekstova. Dakle, težnja za automatizacijom analitičkih postupaka prisutna je u komunikologiji znatno dulje nego što se to na prvi pogled čini, a principi na kojima je General Inquirer radio, tj. pridruživanje riječi kategorijama iz rječnika i njihovo brojanje, konceptualno su srodni suvremenim pristupima rječničke analize sentimenta opisanima u poglavlju 11.

Međutim, rani računalni pristupi bili su ograničeni na relativno jednostavne operacije poput brojanja riječi i pridruživanja unaprijed definiranih kategorija. Sofisticiranije analize značenja i konteksta ostajale su izvan dosega tadašnje tehnologije jer su zahtijevale razumijevanje sintaktičkih struktura i semantičkih odnosa za koje algoritmi toga vremena nisu bili sposobni. Tek je razvoj metoda strojnog učenja tijekom prvog desetljeća dvadeset i prvog stoljeća, a potom i dubokog učenja u drugom desetljeću, omogućio kvalitativni skok u sposobnostima računalne obrade tekstualnih i drugih podataka. Taj skok opravdava govor o paradigmatskom obratu u metodologiji društvenih istraživanja.

Nekoliko je ključnih prekretnica obilježilo konsolidaciju računalne društvene znanosti kao prepoznatljivog polja. Već spomenuti programatski članak Lazera i suradnika iz 2009. godine eksplicitno je artikulirao viziju nove paradigme i okupio istraživače iz različitih disciplina oko zajedničkog programa. Duncan Watts, fizičar koji je svoju karijeru preusmjerio prema proučavanju društvenih fenomena, svojim je radom na malim svjetovima i kaskadama društvenog utjecaja demonstrirao kako se metode kompleksnih sustava mogu primijeniti na pitanja izravno relevantna za komunikologiju (Watts, 2003). Matthew Salganik svojim udžbenikom Bit by Bit pružio je prvu sustavnu metodološku sintezu računalne društvene znanosti usmjerenu prema široj publici društvenih znanstvenika (Salganik, 2018). Usporedno s tim, osnivanje specijaliziranih istraživačkih centara, pokretanje časopisa Journal of Computational Social Science te konferencije IC2S2 označili su institucionalnu konsolidaciju polja.

30.2 Posebnosti u odnosu na tradicionalne pristupe

Ključna razlika između računalne društvene znanosti i tradicionalnih pristupa društvenom istraživanju ne ogleda se isključivo u količini podataka koju je moguće obraditi, premda je i ta dimenzija značajna. Pod pojmom velikih podataka (eng. Big Data) u kontekstu društvenih istraživanja podrazumijevaju se podatkovni skupovi čiji volumen, brzina generiranja te raznolikost formata nadilaze kapacitete tradicionalnih analitičkih alata (Salganik, 2018). Ono što velike podatke čini metodološki značajnima jest činjenica da ti podaci nastaju spontano kao digitalni tragovi ljudskog ponašanja u mrežnom okruženju, a ne kao rezultat namjernog istraživačkog dizajna. Upravo ta razlika u genezi podataka ima dalekosežne metodološke implikacije.

Ponajprije, računalna društvena znanost omogućuje istraživačima da promatraju društvene procese dok se oni odvijaju, što tradicionalnim metodama poput anketa ili eksperimenata uglavnom nije bilo dostupno (Watts, 2011). Dok tradicionalne metode tipično zahvaćaju statične presjeke društvene stvarnosti u diskretnim vremenskim točkama, primjerice provodeći anketu jednom godišnje, računalne metode omogućuju kontinuirano praćenje evolucije fenomena. Istraživač može pratiti kako se javno mnijenje o nekoj temi mijenja iz sata u sat, a ne samo iz godine u godinu, što otvara mogućnost analize brzih dinamičkih procesa poput širenja vijesti ili formiranja kolektivnih emocionalnih reakcija na krizne događaje.

Nadalje, računalna društvena znanost karakterizirana je mogućnošću proučavanja ponašanja umjesto isključivog oslanjanja na izjave o ponašanju. Tradicionalna istraživanja komunikacije u velikoj su mjeri ovisila o samoiskazima ispitanika prikupljenima anketnim upitnicima (v. poglavlje 4), no digitalni tragovi pružaju neposredan uvid u stvarno ponašanje korisnika digitalnih platformi (Salganik, 2018). Istraživač može vidjeti koje je članke korisnik stvarno pročitao, koliko je vremena proveo čitajući ih i s kim ih je podijelio, umjesto da se oslanja na odgovor ispitanika na pitanje koliko vremena dnevno provodi čitajući vijesti. Ova distinkcija između deklariranog i opaženog ponašanja ima značajne implikacije za valjanost istraživačkih zaključaka (v. poglavlje 14), premda donosi i vlastite metodološke izazove o kojima će biti detaljnije govora u nastavku poglavlja.

Tablica 15.1 sažima ključne razlike između tradicionalnih i računalnih pristupa društvenom istraživanju, organizirane prema dimenzijama koje su najrelevantnije za istraživače komunikacije.

Code
tibble(
  Dimenzija = c(
    "Izvor podataka",
    "Vremenski obuhvat",
    "Vrsta ponašanja",
    "Veličina uzorka",
    "Reaktivnost",
    "Tipična metoda"
  ),
  `Tradicionalni pristupi` = c(
    "Ispitanici, dokumenti, artefakti",
    "Diskretni vremenski presjeci",
    "Samoiskazi o ponašanju",
    "Stotine do tisuće jedinica",
    "Visoka (ispitanik zna da je promatran)",
    "Anketa, eksperiment, ručna analiza sadržaja"
  ),
  `Računalni pristupi` = c(
    "Digitalni tragovi, API podaci, logovi",
    "Kontinuirano praćenje u stvarnom vremenu",
    "Opaženo ponašanje",
    "Tisuće do milijuni jedinica",
    "Niska (ponašanje zabilježeno neovisno o istraživanju)",
    "Automatska analiza teksta, mrežna analiza, strojno učenje"
  )
) |>
  kable(align = "lll") |>
  kable_styling(bootstrap_options = c("striped", "hover"), full_width = TRUE) |>
  column_spec(1, bold = TRUE, width = "18%") |>
  column_spec(2, width = "38%") |>
  column_spec(3, width = "44%")
Table 30.1: Usporedba tradicionalnih i računalnih pristupa istraživanju komunikacije
Dimenzija Tradicionalni pristupi Računalni pristupi
Izvor podataka Ispitanici, dokumenti, artefakti Digitalni tragovi, API podaci, logovi
Vremenski obuhvat Diskretni vremenski presjeci Kontinuirano praćenje u stvarnom vremenu
Vrsta ponašanja Samoiskazi o ponašanju Opaženo ponašanje
Veličina uzorka Stotine do tisuće jedinica Tisuće do milijuni jedinica
Reaktivnost Visoka (ispitanik zna da je promatran) Niska (ponašanje zabilježeno neovisno o istraživanju)
Tipična metoda Anketa, eksperiment, ručna analiza sadržaja Automatska analiza teksta, mrežna analiza, strojno učenje

Kao što je vidljivo iz tablice, razlike nisu samo kvantitativne već zadiru u samu narav istraživačkog procesa. Posebno je značajna razlika u reaktivnosti: dok tradicionalni pristupi nerijetko mijenjaju ponašanje koje proučavaju samim činom promatranja (fenomen poznat u kontekstu anketnih istraživanja kao društvena poželjnost odgovora, v. poglavlje 4), digitalni tragovi nastaju neovisno o istraživačkom dizajnu. Međutim, ta nereaktivnost ne znači da su podaci slobodni od pristranosti; algoritamska selekcija sadržaja, samoselekcija korisnika platformi i nereprezentativnost populacije korisnika digitalnih platformi uvode vlastite, ponekad teže uočljive, izvore pristranosti.

Sve navedene posebnosti konvergiraju u tri trenda koja čine razumijevanje računalnih pristupa nužnim za suvremene istraživače komunikacije. Prvi trend jest eksponencijalni rast digitalnih tragova komunikacijskog ponašanja koji generiraju korisnici digitalnih platformi, od obrazaca konzumacije vijesti do interakcija na društvenim mrežama. Drugi trend jest algoritamska posredovanost javne komunikacije, tj. činjenica da su suvremeni komunikacijski procesi u sve većoj mjeri oblikovani računalnim sustavima koji odlučuju što ćemo vidjeti, kada i u kojem kontekstu. Treći trend jest demokratizacija analitičkih alata: tehnike koje su prije bile dostupne isključivo specijaliziranim laboratorijima danas su implementirane u bibliotekama otvorenog koda za jezike Python i R (Grimmer i sur., 2022). Ta demokratizacija paradoksalno povećava potrebu za metodološkom rigoroznošću jer omogućuje i zloporabu od strane nedovoljno obrazovanih praktičara koji primjenjuju sofisticirane alate bez adekvatnog razumijevanja njihovih pretpostavki i ograničenja.

Ovaj uvodni okvir postavlja temelje za dublje razmatranje epistemoloških implikacija računalnog obrata kojemu se posvećuje sljedeći odjeljak.

31 Epistemološke implikacije računalnog obrata

Prethodni odjeljak prikazao je računalnu društvenu znanost kao interdisciplinarno polje s novim vrstama podataka i alata. No računalni obrat u društvenim znanostima ne donosi samo praktične prednosti u smislu veće brzine i većeg obujma obrade podataka, već mijenja samu epistemologiju istraživačkog procesa, tj. narav pitanja koja možemo postaviti, vrstu dokaza koje možemo prikupiti i kriterije prema kojima ocjenjujemo valjanost spoznaja.

31.1 Nove vrste istraživačkih pitanja

Računalne metode omogućuju postavljanje sasvim novih vrsta pitanja koja tradicionalnim metodama nije bilo moguće adresirati. Istraživač sada može postaviti pitanje o tome kako se informacije šire komunikacijskom mrežom u stvarnom vremenu, koje strukturne karakteristike mreže facilitiraju ili inhibiraju širenje određenih tipova sadržaja te kako se dinamika širenja mijenja ovisno o kontekstualnim faktorima poput vremena dana, tipa sadržaja ili stupnja emocionalne nabijanosti poruke (Watts, 2011). Takva pitanja pretpostavljaju pristup temporalno granularnim podacima o mrežnoj strukturi i tokovima informacija, pristup koji je postao moguć tek s pojavom digitalnih platformi i računalnih metoda za analizu nastalih podataka.

Nadalje, računalne metode omogućuju proučavanje rijetkih fenomena koji bi u tradicionalnim uzorcima bili podzastupljeni. Anketa s tisuću ispitanika (v. poglavlje 4 o dizajnu anketnih istraživanja) možda neće zahvatiti dovoljno slučajeva nekog rijetkog ponašanja, primjerice specifičnog obrasca dijeljenja dezinformacija, da bi se o njemu moglo pouzdano zaključivati. Digitalni tragovi, s druge strane, mogu sadržavati milijune relevantnih slučajeva što omogućuje proučavanje heterogenosti i rubnih fenomena s dosad nezamislivom granularnošću (Salganik, 2018). Primjerice, umjesto pitanja utječu li društvene mreže na političke stavove općenito, istraživač može pitati za koje tipove korisnika, u kojim mrežnim pozicijama i pri izloženosti kojim vrstama sadržaja dolazi do mjerljivih promjena u stavovima.

Računalni pristup također omogućuje takozvanu induktivnu eksploraciju (eng. inductive exploration), pristup u kojem istraživač ne polazi od unaprijed definirane hipoteze već dopušta da obrasci emergiiraju iz podataka. Tematsko modeliranje, opisano u poglavlju 11, primjer je takve induktivne metode: istraživač ne definira unaprijed teme koje traži u korpusu već algoritam sam identificira latentne tematske strukture. Ovaj pristup ne zamjenjuje deduktivno testiranje hipoteza (v. poglavlje 9 o testiranju hipoteza), već ga dopunjuje nudeći mogućnost generiranja hipoteza iz velikih korpusa podataka koje se potom mogu testirati rigoroznijim metodama.

31.2 Novi izazovi za valjanost

Uz nove mogućnosti dolaze i novi izazovi za valjanost istraživačkih zaključaka koji nadilaze okvire tradicionalno razmatrane u poglavlju 14 o valjanosti i pouzdanosti.

Konstruktna valjanost postaje osobito problematična kada istraživač koristi digitalne tragove kao indikatore teorijskih konstrukata koji su izvorno konceptualizirani neovisno o digitalnom kontekstu (Salganik, 2018). Primjerice, mjeri li broj pratitelja na nekoj društvenoj mreži doista društveni utjecaj ili nešto sasvim drugo, poput sposobnosti privlačenja pažnje ili čak spremnosti za kupnju lažnih pratitelja? Mjeri li broj dijeljenja nekog članka stvarnu čitanost ili samo privlačnost naslova? Odgovor na takva pitanja zahtijeva pažljivu teorijsku argumentaciju koja povezuje operacionalne mjere s konceptualnim definicijama konstrukata, argumentaciju koja je u praksi digitalnih istraživanja nerijetko nedovoljno razvijena.

Eksterna valjanost također predstavlja značajan izazov s obzirom na činjenicu da podaci prikupljeni s jedne platforme ne moraju biti reprezentativni za širu populaciju ili za ponašanje na drugim platformama (Tufekci, 2014). Korisnici Twittera nisu reprezentativan uzorak opće populacije, a njihovo ponašanje na toj platformi ne mora odražavati njihovo ponašanje u drugim kontekstima. U hrvatskom kontekstu ovo ograničenje posebno je značajno jer je penetracija pojedinih platformi neravnomjerno distribuirana prema dobi, obrazovanju i urbanosti, što znači da zaključci temeljeni na podacima s jedne platforme ne mogu bez dodatne argumentacije biti generalizirani na hrvatsko društvo u cjelini. Nadalje, algoritamska selekcija sadržaja koji postaje vidljiv istraživaču može uvesti sustavne pristranosti u podatke koje je teško detektirati i korigirati.

Temporalna valjanost (eng. temporal validity) predstavlja izazov specifičan za računalnu društvenu znanost. Digitalne platforme neprestano mijenjaju svoje algoritme, sučelja i pravila korištenja, što znači da se kontekst u kojem nastaju digitalni tragovi mijenja kroz vrijeme. Istraživanje provedeno na Twitter podacima iz 2015. godine ne može se izravno usporediti s istraživanjem na podacima iz 2024. godine jer se u međuvremenu promijenio algoritam koji određuje vidljivost sadržaja, promijenjeni su uvjeti korištenja platforme, a i sama populacija korisnika značajno se izmijenila. Stoga generalizacija nalaza zahtijeva ne samo argumentaciju o reprezentativnosti uzorka u prostornom smislu već i u temporalnom.

Tablica 15.2 sažima specifične izazove valjanosti u kontekstu računalne društvene znanosti, navodeći za svaki izazov primjer iz istraživanja komunikacije i moguće strategije ublažavanja.

Code
tibble(
  `Vrsta valjanosti` = c(
    "Konstruktna",
    "Eksterna",
    "Temporalna",
    "Ekološka"
  ),
  `Izazov` = c(
    "Digitalni tragovi kao mjere teorijskih konstrukata",
    "Nereprezentativnost korisnika platformi",
    "Promjene platformi i algoritama kroz vrijeme",
    "Ponašanje na platformi ≠ ponašanje u stvarnosti"
  ),
  `Primjer` = c(
    "Broj dijeljenja kao mjera utjecaja članka",
    "Zaključci s Twittera generalizirani na populaciju",
    "Promjena algoritma mijenja vidljivost sadržaja",
    "Online agresivnost ne predviđa offline ponašanje"
  ),
  `Strategija ublažavanja` = c(
    "Validacija s eksternim mjerama",
    "Kombinacija s anketnim podacima",
    "Dokumentacija verzija platforme",
    "Triangulacija s kvalitativnim podacima"
  )
) |>
  kable(align = "llll") |>
  kable_styling(bootstrap_options = c("striped", "hover"), full_width = TRUE) |>
  column_spec(1, bold = TRUE, width = "15%") |>
  column_spec(2, width = "28%") |>
  column_spec(3, width = "30%") |>
  column_spec(4, width = "27%")
Table 31.1: Izazovi valjanosti u računalnoj društvenoj znanosti
Vrsta valjanosti Izazov Primjer Strategija ublažavanja
Konstruktna Digitalni tragovi kao mjere teorijskih konstrukata Broj dijeljenja kao mjera utjecaja članka Validacija s eksternim mjerama
Eksterna Nereprezentativnost korisnika platformi Zaključci s Twittera generalizirani na populaciju Kombinacija s anketnim podacima
Temporalna Promjene platformi i algoritama kroz vrijeme Promjena algoritma mijenja vidljivost sadržaja Dokumentacija verzija platforme
Ekološka Ponašanje na platformi ≠ ponašanje u stvarnosti Online agresivnost ne predviđa offline ponašanje Triangulacija s kvalitativnim podacima

Iz tablice je razvidno da nijedan izazov valjanosti ne diskvalificira računalne pristupe kao istraživačku metodu, no svaki zahtijeva eksplicitnu argumentaciju i primjenu odgovarajućih strategija ublažavanja. Posebno je značajno da se većina strategija temelji na kombiniranju računalnih podataka s drugim izvorima dokaza, čime se naglašava komplementarnost, a ne supstitucija tradicionalnih i računalnih pristupa.

31.3 Predikcija nasuprot objašnjenju

Epistemološki značajna distinkcija koju računalna društvena znanost stavlja u prvi plan jest razlika između predikcije i objašnjenja kao istraživačkih ciljeva. Tradicionalna društvena znanost primarno je usmjerena na objašnjenje, tj. na identificiranje kauzalnih mehanizama koji generiraju opažene obrasce. Mnoge računalne metode, s druge strane, optimizirane su za predikciju, tj. za sposobnost predviđanja budućih ishoda ili klasifikacije novih slučajeva na temelju naučenih obrazaca, bez nužnog razumijevanja mehanizama koji te obrasce produciraju (Grimmer i sur., 2022).

Predikcija je primjeren cilj kada je praktična korist istraživanja u sposobnosti anticipiranja budućih ishoda. Primjerice, model koji s visokom točnošću predviđa koje će vijesti postati viralne koristan je za medijske kuće neovisno o tome razumijemo li u potpunosti mehanizme koji stoje iza viralnosti. Objašnjenje je primjeren cilj kada je svrha istraživanja razumijevanje kauzalnih mehanizama. Ako želimo znati zašto određene vijesti postaju viralne kako bismo mogli dizajnirati intervencije protiv širenja dezinformacija, prediktivni model koji koristi neprozirne značajke neće biti dovoljan jer ne pruža uvid u mehanizme na koje možemo djelovati.

Ova distinkcija ima izravne implikacije za odabir metode. Kao što je detaljno opisano u poglavlju 10, regresijski modeli dizajnirani su primarno za objašnjenje jer omogućuju interpretaciju doprinosa pojedinih prediktora. Složeniji modeli strojnog učenja poput neuralnih mreža mogu pružiti superiornu predikciju, no po cijenu interpretabilnosti. Istraživač stoga mora jasno artikulirati je li mu cilj predikcija ili objašnjenje prije nego što odabere metodu, a ta odluka mora proizlaziti iz istraživačkog pitanja (v. poglavlje 3 o formulaciji istraživačkih pitanja).

Razmatranje epistemoloških implikacija računalnog obrata nužno vodi prema pitanju algoritamske posredovanosti suvremene komunikacije, temi kojoj se posvećuje sljedeći odjeljak.

32 Algoritamska posredovanost komunikacije

Dosadašnja rasprava fokusirala se na računalnu društvenu znanost kao istraživačku paradigmu, no razumijevanje računalnih sustava za istraživača komunikacije ima i drugu, jednako važnu dimenziju. Suvremena javna komunikacija nije samo digitalizirana u smislu da se odvija putem digitalnih kanala, već je algoritamski posredovana, što znači da računalni sustavi aktivno odlučuju koji sadržaji postaju vidljivi kojim korisnicima, u kojem trenutku i u kojem kontekstu (Napoli, 2014). Istraživač koji ne razumije logiku tih sustava ne može adekvatno analizirati fenomene koje proučava jer mu izmiče ključna odrednica koja oblikuje kontekst u kojem se ti fenomeni manifestiraju.

32.1 Arhitektura algoritamskih sustava

Algoritam preporuke sadržaja (eng. recommendation algorithm) može se konceptualno razumjeti kroz četiri ključne komponente koje zajedno čine arhitekturu sustava za personalizaciju sadržaja na digitalnim platformama.

Prva komponenta jest reprezentacija korisnika (eng. user representation), tj. način na koji sustav modelira preferencije individualnog korisnika. Sustav uzima u obzir kategorije sadržaja koje korisnik preferira, koliko dugo zadržava pažnju na različitim tipovima sadržaja te s kojim sadržajima interagira putem reakcija, komentara ili dijeljenja (Ricci i sur., 2015). Ova reprezentacija tipično ima formu vektora u visokodimenzionalnom prostoru, koncept srodan vektorskim reprezentacijama teksta opisanima u poglavlju 11, gdje svaka dimenzija zahvaća određeni aspekt korisničkog profila. Korisnik uglavnom nema uvid u vlastitu reprezentaciju niti mogućnost njezine korekcije.

Druga komponenta jest reprezentacija sadržaja (eng. content representation) koja analogno modelira obilježja svakog sadržaja koji cirkulira platformom. Ona uključuje tekstualne elemente poput ključnih riječi i tematskih oznaka, vizualne karakteristike te metapodatke o autoru, vremenu objave i dosadašnjoj povijesti interakcija drugih korisnika s tim sadržajem (Covington i sur., 2016). Kombinacija ovih značajki omogućuje sustavu da svaki sadržaj pozicionira u istom prostoru u kojem su reprezentirani korisnici.

Treća komponenta jest funkcija podudaranja (eng. matching function) koja procjenjuje vjerojatnost da će određeni korisnik pozitivno reagirati na određeni sadržaj. U najjednostavnijem slučaju ova funkcija izračunava sličnost između korisničkog i sadržajnog vektora, no u praksi suvremeni sustavi koriste složene modele dubokog učenja koji mogu zahvatiti nelinearne interakcije između značajki (Covington i sur., 2016). Rezultat jest rang-lista sadržaja sortirana prema predviđenoj vjerojatnosti pozitivne reakcije.

Četvrta i za razumijevanje društvenih posljedica najvažnija komponenta jest funkcija cilja (eng. objective function) koja definira što sustav optimizira. Tipične funkcije cilja uključuju maksimizaciju vremena provedenog na platformi, broja interakcija ili retencije korisnika (Milano i sur., 2020). Definicija funkcije cilja implicitno određuje koje će vrste sadržaja biti favorizirane. Ako algoritam optimizira vrijeme provedeno na platformi, postoji strukturni poticaj za promociju sadržaja koji izaziva snažne emocionalne reakcije jer takvi sadržaji dulje zadržavaju pažnju korisnika, neovisno o tome jesu li informativno vrijedni ili društveno korisni. Ovo nije pitanje namjerne malicioznosti dizajnera sustava već svrsiishodna posljedica načina na koji je funkcija cilja definirana.

32.2 Povratne veze i emergentne dinamike

Razumijevanje koncepata poput povratne veze (eng. feedback loop) omogućuje analizu načina na koji algoritamsko posredovanje može pojačavati postojeće tendencije i producirati emergentne dinamike koje nisu nužno bile namjera dizajnera sustava. Ovi koncepti analogni su efektima spirale šutnje i kumulativnim procesima postavljanja dnevnog reda koje komunikologija proučava već desetljećima, no s bitno drugačijim mehanizmima i brzinom djelovanja.

Fenomen filter mjehurića (eng. filter bubble), pojam koji je popularizirao Eli Pariser, označava situaciju u kojoj algoritmi personalizacije postupno sužavaju raspon sadržaja kojemu je korisnik izložen, stvarajući svojevrsni informacijski mjehurić koji filtrira perspektive različite od onih koje korisnik već preferira (Pariser, 2011). Mehanizam je konceptualno jednostavan: kada sustav detektira da korisnik pokazuje interes za određeni tip sadržaja, servira više sličnog sadržaja, što potencijalno vodi u spiralu sve užeg tematskog fokusa. Potrebno je napomenuti da empirijska istraživanja nude mješovite dokaze o stvarnoj rasprostranjenosti i intenzitetu filter mjehurića, pri čemu neki autori sugeriraju da je fenomen manje izražen nego što popularni diskurs implicira (Zuiderveen Borgesius i sur., 2016).

Usko povezan fenomen jest potencijalni doprinos algoritama polarizaciji javnog diskursa. Ako algoritmi favoriziraju sadržaj koji izaziva snažne emocionalne reakcije, a takav sadržaj često uključuje ekstremne pozicije i konfliktnu retoriku, tada algoritamsko posredovanje može pojačavati polarizacijske tendencije u društvu (Bail i sur., 2018). Ova hipoteza ostaje predmet aktivne znanstvene debate te kauzalni odnos između algoritamskog posredovanja i polarizacije nije jednostavno ustanoviti zbog brojnih konfundirajućih faktora. Međutim, sama mogućnost takvog odnosa čini razumijevanje algoritamske arhitekture nužnim za istraživače koji proučavaju suvremenu javnu komunikaciju.

32.3 Metode za proučavanje algoritamskih sustava

Istraživanje algoritamskih sustava suočava se s izazovom ograničenog pristupa jer platforme tretiraju algoritme kao poslovnu tajnu. Stoga su istraživači razvili niz metoda koje omogućuju proučavanje algoritama izvana, bez pristupa izvornom kodu ili internim podacima.

Revizijske studije (eng. audit studies) predstavljaju metodološki pristup koji testira ponašanje algoritama kroz sistematične eksperimente s kontroliranim unosima (Sandvig i sur., 2014). Istraživač kreira profile korisnika s različitim karakteristikama, izlaže ih istim ili različitim sadržajima te prati kako sustav reagira na te manipulacije. Primjerice, studija može kreirati profile koji se razlikuju samo po naznačenoj političkoj orijentaciji te pratiti razlikuje li se sadržaj koji algoritam preporučuje tim profilima. Ovaj pristup konceptualno je srodan eksperimentalnom nacrtu opisanome u poglavlju 3, s tom razlikom da je objekt eksperimentiranja algoritam, a ne ljudski ispitanik.

Obrnuto inženjerstvo (eng. reverse engineering) označava pokušaj rekonstrukcije logike algoritma na temelju opažanja njegovih rezultata. Istraživač sistematično varira ulaze i bilježi izlaze, pokušavajući iz tih opažanja inducirati pravila ili obrasce prema kojima algoritam funkcionira (Diakopoulos, 2015). U praksi, ovaj pristup zahtijeva automatizaciju interakcija s platformom, što se može postići korištenjem programskih alata za automatsko pretraživanje web stranica (eng. web scraping) poput Python biblioteke Selenium ili R paketa RSelenium. Istraživač automatski šalje upite platformi, prikuplja rezultate i analizira obrasce u odgovorima algoritma. Za hrvatski kontekst, ova metoda primijenjena je, primjerice, u istraživanjima personalizacije rezultata pretraživanja na Google.hr, gdje su istraživači kreirali profile s različitim jezičnim preferencijama i pratili razlike u prikazanim rezultatima.

Platformski eksperimenti koriste mogućnosti koje same platforme nude za eksperimentalnu manipulaciju. Istraživač može nasumično dodijeliti sudionike u uvjete koji se razlikuju po izloženosti određenim tipovima sadržaja te mjeriti posljedice te izloženosti na stavove ili ponašanje (Bail i sur., 2018). Ovaj pristup zahtijeva ili suradnju s platformom, koja je često teško ostvariva, ili kreativno korištenje eksperimentalnih mogućnosti koje platforma nudi svojim korisnicima, poput A/B testiranja oglasa.

32.4 Komunikološka relevantnost algoritamske posredovanosti

Moglo bi se postaviti pitanje zašto bi komunikolozi trebali razumjeti tehničke detalje algoritamskih sustava umjesto da tu zadaću prepuste informatičarima. Odgovor proizlazi iz same naravi fenomena o kojima je riječ: algoritamski sustavi javne komunikacije nisu primarno tehnički već društveni fenomeni jer njihov značaj proizlazi iz njihovih učinaka na društvene procese poput formiranja javnog mnijenja, distribucije informacija i artikulacije političkih konflikata (Gillespie, 2014).

Teorije postavljanja dnevnog reda, uokvirivanja i usmjeravanja pažnje, razvijene desetljećima prije pojave algoritamskih medija (McCombs i Shaw, 1972; Entman, 1993), pružaju konceptualni aparat koji se može adaptirati za analizu algoritamskog postavljanja dnevnog reda, tj. načina na koji algoritmi određuju koje teme postaju vidljive i salijentne za različite segmente publike. Tehnička ekspertiza nije dovoljna za evaluaciju društvenih posljedica algoritamskih sustava jer inženjer može dizajnirati algoritam koji izvrsno optimizira definiranu ciljnu funkciju, no procjena je li ta ciljna funkcija društveno poželjna izlazi izvan domene tehničke ekspertize i zahtijeva teorijske okvire koje posjeduju upravo društveni znanstvenici.

Razumijevanje algoritamske posredovanosti prirodno vodi prema razmatranju novih metoda koje istraživačima stoje na raspolaganju za proučavanje suvremenih komunikacijskih fenomena, što je tema sljedećeg odjeljka.

33 Nove metode i metodološka integracija

Poglavlja 11 i 12 ove knjige detaljno su obradila računalnu analizu teksta i analizu mreža kao dvije temeljne računalne metode relevantne za istraživanje komunikacije. Međutim, raspon metoda koje stoje na raspolaganju suvremenom istraživaču komunikacije znatno je širi od toga. Ovaj odjeljak razmatra dodatne metode koje proširuju istraživačke mogućnosti, uključujući velike jezične modele, vizualnu analizu, temporalne pristupe i strategije integracije različitih metoda.

33.1 Veliki jezični modeli kao istraživački alati

Veliki jezični modeli (eng. Large Language Models, skraćeno LLM) poput GPT serije, Claude obitelji ili Gemini modela predstavljaju transformativnu tehnologiju koja u temeljima mijenja način na koji je moguće pristupiti analizi tekstualnih podataka. Ovi modeli trenirani su na korpusima koji obuhvaćaju stotine milijardi riječi teksta i demonstriraju sposobnost razumijevanja i generiranja teksta koja nadilazi sve prethodne pristupe obradi prirodnog jezika (Brown i sur., 2020). Njihova arhitektura temelji se na transformerskoj arhitekturi koja koristi mehanizam samopažnje za dinamičko procjenjivanje relevantnosti svakog dijela ulazne sekvence za obradu bilo kojeg drugog dijela (Vaswani i sur., 2017). Objašnjeno jednostavnije, model pri obradi svake riječi uzima u obzir sve ostale riječi u kontekstu i procjenjuje koliko je svaka od njih relevantna za razumijevanje trenutne riječi, čime postiže sofisticirano razumijevanje konteksta i značenja.

Za istraživače komunikacije, najznačajnija mogućnost velikih jezičnih modela jest klasifikacija teksta bez potrebe za opsežnim procesom treniranja. Učenje bez primjera (eng. zero-shot learning) označava pristup u kojem model klasificira tekstove samo na temelju tekstualnog opisa željenih kategorija, bez ijednog označenog primjera (Brown i sur., 2020). Učenje s malo primjera (eng. few-shot learning) pruža modelu mali broj označenih primjera, tipično od tri do deset, koji ilustriraju željenu klasifikaciju. Praktične implikacije ovih mogućnosti dalekosežne su: klasifikacija koja bi tradicionalnim pristupom opisanim u poglavlju 11 zahtijevala tjedne pripreme podataka i tehničku ekspertizu sada se može provesti u satima.

U praksi, istraživač koji želi klasificirati tisuće novinskih članaka prema tematskim okvirima može koristiti API sučelja komercijalnih modela (poput OpenAI API-ja ili Anthropic API-ja) ili lokalno pokretati modele otvorenog koda (poput Llama obitelji modela) koristeći Python biblioteku transformers ili R paket ellmer. Sljedeći primjer ilustrira logiku poziva velikom jezičnom modelu za klasifikaciju novinske vijesti u R-u, koristeći paket ellmer koji pruža sučelje prema različitim LLM pružateljima.

Code
# Instalacija: install.packages("ellmer")
library(ellmer)

# Primjer klasifikacije novinskih naslova
# (zahtijeva postavljanje API ključa)
naslovi <- c(
  "Vlada najavila nove mjere za suzbijanje inflacije",
  "Reprezentacija pobijedila u kvalifikacijama",
  "Požar u tvornici ugašen nakon tri sata"
)

# Definicija kategorija za klasifikaciju
prompt <- "Klasificiraj sljedeći naslov u jednu od kategorija:
politika, sport, crna kronika. Odgovori samo nazivom kategorije."

# Poziv modelu za svaki naslov
rezultati <- sapply(naslovi, function(naslov) {
  chat("gpt-4o-mini", paste(prompt, naslov))
})

Važno je napomenuti da ovaj pristup ima značajna ograničenja. Halucinacije označavaju tendenciju modela da generira uvjerljiv ali faktički netočan sadržaj (Ji i sur., 2023), što zahtijeva verifikaciju svakog kritičnog rezultata. Pristranosti prisutne u podacima za treniranje reflektiraju se u rezultatima modela, što je posebno problematično za jezike poput hrvatskog koji su podzastupljeni u podacima za treniranje u usporedbi s engleskim (Bender i sur., 2021). Reproducibilnost je otežana jer komercijalni modeli mogu promijeniti ponašanje bez prethodne najave, a čak i uz identične parametre rezultati mogu varirati među pozivima. Stoga je nužno dokumentirati verziju modela, parametre poziva i datum provedbe analize kako bi se omogućila barem približna replikacija rezultata. Za hrvatski jezik, performanse velikih jezičnih modela generalno su niže nego za engleski, no recentna istraživanja pokazuju da najnovije generacije modela postižu zadovoljavajuće rezultate na zadacima klasifikacije i ekstrakcije informacija iz hrvatskih tekstova, posebno kada su popraćeni jasnim instrukcijama i primjerima na hrvatskom jeziku.

Osim klasifikacije, veliki jezični modeli omogućuju ekstrakciju informacija iz nestrukturiranih tekstova. Identifikacija aktera, njihovih tvrdnji, odnosa i atributa u velikom korpusu tradicionalno bi zahtijevala ili mukotrpno ručno čitanje ili sofisticirano programiranje specijaliziranih sustava (Ziems i sur., 2024). Modeli mogu izvršiti ovu ekstrakciju na temelju instrukcija formuliranih u prirodnom jeziku, vraćajući strukturirane podatke iz nestrukturiranog teksta. Također, veliki jezični modeli mogu pomoći u augmentaciji kvalitativnih metoda, poput induktivnog generiranja kodova iz intervjua ili fokus grupa (v. poglavlje 6), pri čemu istraživač zadržava odgovornost za finalnu interpretaciju, no model može ubrzati proces i ukazati na obrasce koje bi ljudski analitičar mogao previdjeti.

33.2 Vizualna i multimodalna analiza

Suvremena digitalna komunikacija inherentno je multimodalna, tj. kombinira tekst, sliku, video i druge modalitete izražavanja u jedinstvene komunikacijske cjeline. Objava na društvenoj mreži tipično kombinira tekst, sliku, ponekad video, ugrađene linkove i oznake koji zajedno tvore koherentnu komunikacijsku poruku (Bateman i sur., 2017). Stoga je ograničavanje analize samo na tekstualnu dimenziju komunikacije, premda praktički jednostavnije, konceptualno nedostatno.

Računalni vid (eng. computer vision) označava granu umjetne inteligencije koja se bavi automatskom ekstrakcijom informacija iz slika i video materijala (Joo i Steinert-Threlkeld, 2022). Suvremeni modeli temeljeni na transformerskoj arhitekturi sposobni su automatski ekstrahirati značajke iz vizualnih podataka, omogućujući analizu vizualne komunikacije na skalama koje fundamentalno nadilaze mogućnosti ručnog kodiranja. Primjerice, istraživač može automatski kodirati tisuće fotografija s naslovnica dnevnih novina prema prisutnosti određenih aktera, emocionalnom izrazu lica ili vizualnom uokvirivanju teme.

U praksi, za istraživače komunikacije najdostupniji pristup vizualnoj analizi jest korištenje multimodalnih velikih jezičnih modela koji mogu simultano obrađivati tekst i sliku. Modeli poput GPT-4 Vision ili Claude modela s vizualnim sposobnostima mogu odgovarati na pitanja o sadržaju slika, opisivati vizualne elemente i klasificirati slike prema zadanim kategorijama. Za programsku implementaciju, Python biblioteka transformers nudi pristup modelima otvorenog koda za vizualnu analizu, dok R korisnici mogu koristiti paket ellmer koji podržava multimodalne pozive. Za hrvatski kontekst, specifični izazov jest činjenica da modeli računalnog vida mogu manje pouzdano prepoznavati elemente specifične za hrvatsku vizualnu kulturu, poput simbola, arhitekture ili manje poznatih javnih osoba, što zahtijeva dodatnu validaciju rezultata.

33.3 Temporalna analiza

Jedna od ključnih prednosti računalne društvene znanosti jest sposobnost zahvaćanja temporalne dimenzije društvenih fenomena s granularnošću koju tradicionalne metode ne omogućuju. Analiza vremenskih serija (eng. time series analysis) omogućuje proučavanje kako se komunikacijski fenomeni razvijaju kroz vrijeme, identificiranje trendova, sezonskih obrazaca i anomalija (Box i sur., 2015). U kontekstu istraživanja komunikacije, vremenske serije mogu reprezentirati volumen medijskog izvještavanja o određenoj temi, intenzitet javne rasprave na društvenim mrežama ili evoluciju sentimenta prema određenom akteru.

Detekcija događaja (eng. event detection) označava skupinu tehnika za automatsku identifikaciju značajnih događaja u tokovima podataka (Atefeh i Khreich, 2015). U kontekstu analize društvenih medija, događaj može biti iznenadni porast rasprave o određenoj temi, pojava novog aktora u javnom diskursu ili promjena dominantnog okvira u izvještavanju. Za implementaciju u R-u, paket changepoint omogućuje detekciju točaka promjene u vremenskim serijama, dok paket tseries pruža alate za analizu vremenskih serija. U Pythonu, biblioteka ruptures specijalizirana je za detekciju točaka promjene.

33.4 Integracija metoda

Metodološki najplodnije mogućnosti otvaraju se kada se različite računalne metode kombiniraju međusobno ili s tradicionalnim pristupima. Integracija može poprimiti nekoliko oblika.

Kombinacija analize teksta i mrežne analize omogućuje simultano zahvaćanje sadržajne i relacijske dimenzije komunikacije. Dok analiza teksta (poglavlje 11) zahvaća što se komunicira, mrežna analiza (poglavlje 12) zahvaća tko komunicira s kime i u kakvim strukturama (Bail, 2014). Primjerice, istraživač može provesti tematsko modeliranje na korpusu tweetova, a zatim konstruirati mrežu u kojoj čvorovi predstavljaju korisnike, veze predstavljaju retweetove, a atributi čvorova uključuju dominantnu temu koju korisnik producira. Time se mogu identificirati tematski homogene zajednice, mostovi koji povezuju tematski različite klastere te ključni akteri u diseminaciji pojedinih tema.

Kombinacija računalnih i kvalitativnih metoda (v. poglavlje 6) također se pokazala izuzetno plodnom. Kvalitativna faza može prethoditi računalnoj analizi, pomažući u formulaciji kategorija za automatsku klasifikaciju. Alternativno, računalna faza može prethoditi kvalitativnoj analizi, identificirajući obrasce i podskupove podataka koji zaslužuju detaljnije kvalitativno istraživanje. Nelson (2020) ovaj pristup naziva računalnom utemeljenom teorijom (eng. computational grounded theory), preuzimajući terminologiju kvalitativne metodologije opisane u poglavlju 6.

Posebno plodna jest kombinacija anketnih podataka (poglavlje 4) i digitalnih tragova. Ankete pružaju informacije o stavovima, percepcijama i samoiskazanom ponašanju koje digitalni tragovi ne mogu izravno zahvatiti, dok digitalni tragovi pružaju informacije o stvarnom ponašanju koje ankete mogu zahvatiti samo neizravno (Stier i sur., 2020). Primjerice, istraživač može kombinirati anketne podatke o političkim stavovima s podacima o mrežnom ponašanju istih ispitanika, omogućujući analizu odnosa između deklariranih stavova i stvarnog medijskog ponašanja.

Tablica 15.3 pruža pregled mogućnosti integracije metoda, navodeći za svaku kombinaciju konkretni primjer istraživačkog pitanja i alate koji se mogu koristiti.

Code
tibble(
  Kombinacija = c(
    "Tekst + mreže",
    "Računalno + kvalitativno",
    "Anketa + digitalni tragovi",
    "Tekst + vizualna analiza",
    "Tekst + temporalna analiza"
  ),
  `Istraživačko pitanje` = c(
    "Kako se teme šire kroz komunikacijsku mrežu?",
    "Koji diskurzivni obrasci dominiraju online raspravama?",
    "Odgovaraju li deklarirani stavovi stvarnom ponašanju?",
    "Kako se tekstualni i vizualni okvir vijesti dopunjuju?",
    "Kako se javni diskurs o temi mijenja kroz vrijeme?"
  ),
  `Alati (R/Python)` = c(
    "quanteda + igraph / gensim + networkx",
    "quanteda + RQDA / scikit-learn + Atlas.ti",
    "survey + httr / qualtrics + tweepy",
    "ellmer + magick / transformers + PIL",
    "quanteda + changepoint / gensim + ruptures"
  )
) |>
  kable(align = "lll") |>
  kable_styling(bootstrap_options = c("striped", "hover"), full_width = TRUE) |>
  column_spec(1, bold = TRUE, width = "20%") |>
  column_spec(2, width = "42%") |>
  column_spec(3, width = "38%")
Table 33.1: Strategije integracije računalnih metoda u istraživanju komunikacije
Kombinacija Istraživačko pitanje Alati (R/Python)
Tekst + mreže Kako se teme šire kroz komunikacijsku mrežu? quanteda + igraph / gensim + networkx
Računalno + kvalitativno Koji diskurzivni obrasci dominiraju online raspravama? quanteda + RQDA / scikit-learn + Atlas.ti
Anketa + digitalni tragovi Odgovaraju li deklarirani stavovi stvarnom ponašanju? survey + httr / qualtrics + tweepy
Tekst + vizualna analiza Kako se tekstualni i vizualni okvir vijesti dopunjuju? ellmer + magick / transformers + PIL
Tekst + temporalna analiza Kako se javni diskurs o temi mijenja kroz vrijeme? quanteda + changepoint / gensim + ruptures

Iz tablice je razvidno da svaka kombinacija metoda otvara specifične istraživačke mogućnosti koje nijedna metoda zasebno ne bi mogla adekvatno adresirati. Nadalje, za većinu kombinacija postoje odgovarajući alati u R-u i Pythonu, što čini ove pristupe praktički dostupnima istraživačima koji su ovladali osnove programiranja.

33.5 Primjer integrirane analize: od prikupljanja do interpretacije

Kako bi se ilustrirala logika integrirane računalne analize, u nastavku je prikazan pojednostavljeni primjer cjelovitog istraživačkog tijeka na zadatku analize medijskog izvještavanja o određenoj temi na hrvatskim portalima. Primjer je konceptualni i koristi simulirane podatke radi ilustracije koraka, no svaki korak odgovara postupku koji se može primijeniti na stvarne podatke.

Code
# Korak 1: Simulacija podataka
# (u stvarnom istraživanju, podaci bi se prikupili web scrapingom ili putem API-ja)
set.seed(42)
n <- 500

medijski_podaci <- tibble(
  portal = sample(c("Portal A", "Portal B"), n, replace = TRUE, prob = c(0.6, 0.4)),
  datum = sample(seq(as.Date("2023-01-01"), as.Date("2023-12-31"), by = "day"), n, replace = TRUE),
  # Simulirani sentiment: Portal A neutralniji, Portal B ekstremnije pozicije
  sentiment = ifelse(
    portal == "Portal A",
    rnorm(n, mean = 0.05, sd = 0.3),
    rnorm(n, mean = -0.15, sd = 0.45)
  )
) |>
  mutate(
    sentiment = pmax(pmin(sentiment, 1), -1),  # Ograničenje na [-1, 1]
    mjesec = floor_date(datum, "month")
  )

# Korak 2: Vizualizacija distribucije sentimenta po portalu
ggplot(medijski_podaci, aes(x = sentiment, fill = portal)) +
  geom_density(alpha = 0.5) +
  scale_fill_manual(values = c("Portal A" = "#2c3e50", "Portal B" = "#7f8c8d")) +
  labs(
    x = "Sentiment (negativno ← 0 → pozitivno)",
    y = "Gustoća",
    fill = "Portal"
  ) +
  theme_minimal(base_size = 12) +
  theme(legend.position = "bottom")
Figure 33.1: Simulirani primjer distribucije sentimenta u medijskom izvještavanju o klimatskim promjenama na dva hrvatska portala. Razlika u distribucijama sugerira različite uredničke pristupe istoj temi.
Code
# Korak 3: Temporalna analiza
mjesecni_podaci <- medijski_podaci |>
  group_by(portal, mjesec) |>
  summarise(
    prosjecni_sentiment = mean(sentiment),
    broj_clanaka = n(),
    .groups = "drop"
  )

ggplot(mjesecni_podaci, aes(x = mjesec, y = prosjecni_sentiment, color = portal)) +
  geom_line(linewidth = 1) +
  geom_point(size = 2) +
  geom_hline(yintercept = 0, linetype = "dashed", color = "gray50") +
  scale_color_manual(values = c("Portal A" = "#2c3e50", "Portal B" = "#7f8c8d")) +
  labs(
    x = "Mjesec",
    y = "Prosječni sentiment",
    color = "Portal"
  ) +
  theme_minimal(base_size = 12) +
  theme(legend.position = "bottom")
Figure 33.2: Simulirani vremenski trend prosječnog mjesečnog sentimenta po portalima. Temporalna analiza otkriva da razlike između portala nisu konstantne već variraju ovisno o kontekstu vijesti u pojedinim mjesecima.

Ovaj primjer, premda pojednostavljen, ilustrira cjeloviti tijek analize koji započinje prikupljanjem podataka, nastavlja se njihovom obradom i analizom te završava vizualizacijom i interpretacijom rezultata. U stvarnom istraživanju, svaki bi korak bio znatno složeniji: prikupljanje bi uključivalo web scraping s portalnih stranica koristeći R paket rvest ili Python biblioteku BeautifulSoup, analiza sentimenta koristila bi rječničke metode poput CroSentiLex leksikona za hrvatski jezik ili klasifikatore temeljene na velikim jezičnim modelima, a interpretacija bi uključivala kontekstualizaciju nalaza u komunikološkom teorijskom okviru o uokvirivanju i postavljanju dnevnog reda.

Razmatranje novih metoda i mogućnosti njihove integracije nužno postavlja pitanje kompetencija potrebnih za njihovu primjenu, čemu se posvećuje sljedeći odjeljak.

34 Programska pismenost kao kompetencija

Prethodni odjeljci pokazali su da suvremeno istraživanje komunikacije zahtijeva razumijevanje i primjenu računalnih metoda koje se ne mogu provoditi bez programerskih kompetencija. Ovaj odjeljak gradi argument da programska pismenost za istraživača komunikacije nije samo korisna specijalizacija već nužna kompetencija, analogna statističkoj pismenosti koju smo razmatrali u poglavljima 8, 9 i 10.

34.1 Argument za programsku pismenost

Pismenost u tradicionalnom smislu ne označava samo sposobnost dekodiranja simbola već kompetenciju za sudjelovanje u procesima proizvodnje i kritičke evaluacije znanja. Analogno tome, istraživač koji ne razumije osnove programiranja u eri računalne društvene znanosti nije samo tehnički ograničen već gubi sposobnost pune participacije u procesima koji definiraju suvremenu proizvodnju znanja o društvu (Grimmer i sur., 2022). Tri temeljna argumenta podupiru ovu tvrdnju, a oni se tiču reproducibilnosti, fleksibilnosti i transparentnosti istraživačkog procesa.

Reproducibilnost predstavlja jedan od temeljnih kriterija znanstvene prakse (v. poglavlje 14 o replikacijskoj krizi). Istraživanje koje drugi znanstvenici ne mogu replicirati ostaje na razini anegdote, koliko god sofisticirano izgledalo u svojoj izvornoj prezentaciji (Freese i Peterson, 2017). Kada analizu provodimo kroz grafičko sučelje nekog statističkog programa, svaki klik i svaka odabrana opcija moraju biti ručno dokumentirani da bi postupak bio reproducibilan, a u praksi se takva dokumentacija rijetko provodi s potrebnom preciznošću. Programski kod, nasuprot tome, sam po sebi predstavlja kompletnu dokumentaciju analitičkog postupka jer je svaka odluka eksplicitno zapisana i može se identično ponovno izvršiti.

Fleksibilnost se odnosi na ograničenja koja grafička sučelja nužno nameću. Svako grafičko sučelje implementira konačan skup funkcionalnosti koje su programeri predvidjeli, no istraživačka pitanja često zahtijevaju postupke koji izlaze izvan tih unaprijed predviđenih okvira (Wickham i Grolemund, 2017). Istraživač koji ovisi isključivo o grafičkim alatima ograničen je na pitanja koja ti alati mogu adresirati, dok istraživač koji vlada programiranjem može implementirati bilo koju proceduru koja je matematički definirana ili kombinirati različite pristupe na načine koje autori originalnih alata nisu predvidjeli.

Transparentnost se tiče razumijevanja onoga što se zapravo događa s podacima tijekom analize. Grafički alati nerijetko funkcioniraju kao crne kutije u kojima korisnik unese podatke, odabere opcije i dobije rezultate, no bez jasnog uvida u transformacije koje su se odvile. Pisanje koda prisiljava istraživača na eksplicitno suočavanje sa svakim korakom analize čime se smanjuje rizik od nerazumijevanja vlastitih rezultata (Salganik, 2018).

34.2 Skriptiranje nasuprot softverskom inženjerstvu

Potrebno je napomenuti da programiranje za istraživača komunikacije ne označava osposobljavanje za razvoj komercijalnog softvera, dizajniranje mobilnih aplikacija ili administraciju računalnih sustava. Te vještine pripadaju softverskom inženjerstvu kao zasebnoj profesiji (Wilson i sur., 2017). Ono što istraživač treba jest kompetencija skriptiranja, tj. sposobnost pisanja kraćih programa koji automatiziraju specifične istraživačke zadatke, manipuliraju podatkovnim skupovima i implementiraju analitičke procedure. Razlika između softverskog inženjera i istraživača koji koristi programiranje analogna je razlici između profesionalnog građevinara i vlasnika kuće koji zna izvesti manje popravke: oboje koriste neke iste alate, no dubina ekspertize i širina primjene fundamentalno se razlikuju.

U kontekstu istraživanja komunikacije dva se programska jezika nameću kao primarni izbori. R je jezik izvorno razvijen za statističku analizu i vizualizaciju podataka koji posjeduje bogat ekosustav paketa za društvena istraživanja, uključujući tidyverse kolekciju za manipulaciju podacima, ggplot2 za vizualizaciju i quanteda za analizu teksta (Wickham i Grolemund, 2017). Python je jezik opće namjene s razvijenim bibliotekama za strojno učenje (scikit-learn), obradu prirodnog jezika (spaCy, transformers) i prikupljanje podataka s mreže (BeautifulSoup, Selenium). Istraživači koji se primarno bave statističkom analizom i vizualizacijom često preferiraju R, dok oni koji se fokusiraju na strojno učenje i automatsko prikupljanje podataka gravitiraju prema Pythonu. Izbor nije binarno pitanje te mnogi istraživači koriste oba jezika ovisno o specifičnim zahtjevima projekta.

Za obradu tekstova na hrvatskom jeziku, posebno je relevantan Python paket CLASSLA koji pruža jezične resurse za južnoslavenske jezike, uključujući tokenizaciju, lematizaciju i označavanje vrsta riječi za hrvatski. CLASSLA nudi znatno kvalitetniju lematizaciju hrvatskog teksta od alata razvijenih za engleski jezik jer uzima u obzir bogatu flektivnu morfologiju hrvatskog, tj. činjenicu da se gramatička značenja poput padeža, broja i roda izražavaju promjenom oblika riječi. Rezultati obrade u CLASSLA sustavu mogu se potom uvesti u R za daljnju statističku analizu, čime se kombiniraju prednosti obaju jezika.

34.3 Infrastruktura reproducibilnosti

Argument za reproducibilnost ostaje apstraktan bez konkretnih alata koji tu reproducibilnost omogućuju. Tri elementa čine temeljnu infrastrukturu reproducibilnog istraživanja.

Kontrola verzija putem sustava Git i platforme GitHub omogućuje istraživaču da u svakom trenutku može vratiti bilo koju prethodnu verziju svog koda, paralelno eksperimentirati s različitim pristupima bez straha od gubitka rada te surađivati s kolegama na istom projektu (Bryan, 2018). Git je besplatan alat otvorenog koda koji se instalira na računalo istraživača, dok je GitHub mrežna platforma za dijeljenje repozitorija koda. Za istraživače komunikacije koji nisu upoznati s konceptom, kontrola verzija funkcionira slično praćenju promjena u programu Microsoft Word, no na razini cijelih projekata i s mogućnošću grananja u paralelne verzije.

Računalne bilježnice poput Jupyter Notebooka za Python ili RMarkdown/Quarto dokumenta za R omogućuju integraciju koda, rezultata i narativnog teksta u jedinstveni dokument (Rule i sur., 2018). Upravo ova knjiga napisana je koristeći Quarto sustav koji omogućuje da se kod za analizu i vizualizaciju te prateći tekst nalaze u istom dokumentu, čime se osigurava da su svi rezultati prikazani u knjizi izravno reproducirani iz koda koji ih prati.

Kontejnerizacija putem alata poput Dockera omogućuje pakiranje cjelokupnog računalnog okruženja, uključujući operativni sustav, instalirane pakete i njihove verzije, u prenosivu jedinicu koja se može identično reproducirati na bilo kojem računalu (Boettiger, 2015). Ova tehnologija adresira problem koji se javlja kada kod koji savršeno funkcionira na jednom računalu prestaje funkcionirati na drugom zbog razlika u verzijama instaliranih paketa. Premda kontejnerizacija predstavlja napredniju razinu tehničke kompetencije, osnovno razumijevanje njezine logike korisno je za sve istraživače koji žele osigurati dugoročnu reproducibilnost svojih analiza.

34.4 Put stjecanja kompetencija

Za studente komunikologije koji žele razviti programerske kompetencije preporuča se strukturiran pristup koji napreduje od temelja prema specijaliziranim primjenama, pri čemu svaka faza gradi na kompetencijama stečenima u prethodnoj (Grimmer i sur., 2022).

Prva faza obuhvaća usvajanje osnova programske logike, tj. temeljnih koncepata kao što su varijable, tipovi podataka, kontrolne strukture (uvjeti i petlje) te funkcije. Ovi koncepti zajednički su praktički svim programskim jezicima i čine temelj bez kojeg daljnje napredovanje nije moguće. Za ovu fazu preporučuju se interaktivni online tečajevi poput onih na platformama Codecademy, DataCamp ili Coursera koji omogućuju učenje kroz praksu.

Druga faza fokusira se na manipulaciju podataka u kontekstu specifičnog programskog jezika. Za R to podrazumijeva ovladavanje tidyverse ekosustavom, a posebice paketom dplyr za transformacije podataka te paketom ggplot2 za vizualizaciju, alatima koji su korišteni u dijelu III ove knjige. Za Python ekvivalentni alati jesu biblioteka pandas za manipulaciju podatkovnim okvirima te biblioteke matplotlib i seaborn za vizualizaciju.

Treća faza uvodi specifične domenske primjene relevantne za istraživanje komunikacije: prikupljanje podataka s mreže, osnovnu analizu teksta (poglavlje 11) i mrežnu analizu (poglavlje 12). U ovoj fazi istraživač uči koristiti alate poput R paketa rvest za web scraping, quanteda za analizu teksta i igraph za mrežnu analizu, ili ekvivalentne Python biblioteke.

Četvrta faza obuhvaća naprednije metode poput strojnog učenja i rada s velikim jezičnim modelima. Važno je napomenuti da ova faza ne bi trebala prethoditi solidnom ovladavanju ranijim fazama jer primjena sofisticiranih algoritama bez temeljnog razumijevanja programiranja i manipulacije podacima vodi u mehaničku primjenu alata bez razumijevanja njihove logike.

Temeljna preporuka za sve faze jest učenje kroz istraživačke projekte jer se apstraktno znanje konsolidira tek u primjeni na konkretne probleme. Student komunikologije koji uči R pisanjem skripte za analizu komentara na hrvatskim portalima usvajat će programerske vještine znatno učinkovitije nego onaj koji prolazi generičke tečajeve programiranja bez veze s vlastitom disciplinom.

Stjecanje programskih kompetencija neodvojivo je od šireg pitanja budućnosti komunikologije kao discipline, čemu se posvećuje zaključni odjeljak ovog poglavlja.

35 Budućnost komunikologije kao hibridne discipline

Prethodna poglavlja ove knjige postupno su gradila argument da suvremeno istraživanje masovne komunikacije zahtijeva integraciju tradicionalnih metodoloških pristupa s računalnim metodama. Ovaj zaključni odjeljak sintetizira taj argument i razmatra njegove implikacije za budućnost komunikologije kao znanstvene discipline, za obrazovanje budućih istraživača te za ulogu komunikologa u širem društvenom kontekstu.

35.1 Sinteza: pet temeljnih teza

Sadržaj ovog poglavlja može se kondenzirati u pet temeljnih teza koje zajedno čine argument za transformaciju komunikologije u hibridnu disciplinu.

Prva teza glasi da digitalna transformacija komunikacije nije samo kvantitativna promjena u količini dostupnih podataka već kvalitativna promjena u samoj naravi fenomena koje komunikologija proučava. Algoritamska posredovanost suvremene komunikacije znači da se između pošiljatelja i primatelja poruke nalaze računalni sustavi koji aktivno oblikuju tko što vidi, čime se mijenjaju temeljne pretpostavke komunikacijskih modela razvijenih u preddigitalnom dobu.

Druga teza glasi da programiranje i računalna pismenost za istraživača komunikacije predstavljaju nužnu kompetenciju, a ne samo poželjnu specijalizaciju. Argumenti reproducibilnosti, fleksibilnosti i transparentnosti demonstriraju da istraživač bez programerskih kompetencija ostaje ograničen na pitanja i postupke koje su predvidjeli dizajneri grafičkih alata, čime gubi autonomiju u istraživačkom procesu.

Treća teza glasi da metode poput velikih jezičnih modela, vizualne analize i temporalnih pristupa nude mogućnosti koje nadilaze klasične pristupe, no te mogućnosti dolaze s vlastitim ograničenjima u pogledu halucinacija, pristranosti, netransparentnosti i reproducibilnosti, ograničenjima koja zahtijevaju kritičku evaluaciju umjesto nekritičkog prihvaćanja.

Četvrta teza glasi da računalne metode omogućuju metodološku sintezu koja transcendira tradicionalnu razliku kvantitativnog i kvalitativnog pristupa, integraciju koja je opisana u poglavlju 7 o mješovitoj metodologiji, ali koja s računalnim alatima poprima nove oblike i mogućnosti.

Peta teza glasi da komunikolozi moraju preuzeti aktivnu ulogu u etičkoj evaluaciji i nadzoru algoritamskih sustava koji oblikuju javnu komunikaciju, ulogu koja zahtijeva razumijevanje tehničkih aspekata tih sustava ali i teorijske okvire kojima raspolaže komunikologija a koje informatičari tipično ne posjeduju.

35.2 Implikacije za obrazovanje

Vizija hibridne discipline ima izravne implikacije za obrazovanje budućih komunikologa. Potrebna je integrirana koncepcija obrazovanja koja od početka povezuje teorijsko i metodološko, kvalitativno i kvantitativno, tradicionalno i računalno.

Uvod u programiranje trebao bi biti obavezan kolegij za sve studente komunikologije, ne kao izolirani sadržaj već kao alat koji se koristi u kontekstu istraživačkih zadataka iz domene komunikacije. Računalne metode analize teksta trebale bi činiti nastavak temeljnih kolegija analize sadržaja (poglavlje 5), pokazujući kako se iste konceptualne operacije mogu provesti na znatno većim skalama. Etika algoritamskih sustava (v. poglavlje 13) trebala bi se izučavati kao kolegij koji integrira filozofsku etiku s empirijskom analizom algoritamskih sustava. Izvan zasebnih kolegija, računalne kompetencije trebale bi biti integrirane kroz čitav kurikulum, primjerice zahtijevajući da seminarski radovi iz teorijskih kolegija uključuju barem osnovnu komponentu računalne analize.

Potrebno je napomenuti da obrazovanje za hibridnu disciplinu zahtijeva kulturu kontinuiranog učenja koja nadilazi završetak formalnog studija. Tehnološki krajolik mijenja se brzinom koja nadilazi cikluse revizije kurikuluma. Alati koji su relevantni danas možda će biti zamijenjeni za pet godina. Stoga je stjecanje trajne kompetencije usmjereno ne samo na ovladavanje specifičnim alatima već i na razvoj metakognitivnih vještina učenja novih alata, tj. sposobnosti da se brzo i učinkovito savlada novi programski paket, novi model ili novi analitički pristup oslanjajući se na temelje stečene formalnim obrazovanjem.

35.3 Etička odgovornost komunikologa

Algoritamski sustavi koji posreduju sve veći udio ljudske komunikacije oblikuju uvjete mogućnosti za demokratsku deliberaciju, formiranje javnog mnijenja i artikulaciju kolektivnih identiteta. Smjer u kojem će ti sustavi evoluirati nije tehnološki determiniran već ovisi o odlukama koje donose brojni akteri, uključujući istraživače koji proučavaju te sustave i produciraju znanje koje može informirati regulatorne i dizajnerske odluke.

Algoritamska pristranost, tj. sistematske pogreške u rezultatima algoritamskih sustava koje neproporcionalno pogađaju određene društvene skupine, nije nužno rezultat namjerne diskriminacije već može nastati iz naizgled neutralnih tehničkih odluka (Barocas i Selbst, 2016). Pristranosti u podacima za treniranje, definicije ciljnih funkcija koje favoriziraju određene ishode te povratne petlje koje pojačavaju inicijalne neravnoteže čine tri temeljna mehanizma nastanka algoritamske pristranosti. Razumijevanje ovih mehanizama (v. poglavlje 13 o etici) zahtijeva interdisciplinarnu kompetenciju koja obuhvaća i tehničko i društvenoteorijski razumijevanje, kompetenciju koja upravo odgovara profilu hibridnog komunikologa kakav je opisan u ovom poglavlju.

Istraživači komunikacije mogu doprinijeti na više razina. Istraživanje u službi javnog interesa uključuje dokumentiranje efekata algoritamskih sustava na informacijski ekosustav, javni diskurs i demokratske procese. Zagovaranje uključuje artikuliranje zašto je transparentnost algoritamskih sustava nužna za zdravu javnu sferu, posebno u kontekstu Europskog akta o digitalnim uslugama (eng. Digital Services Act) koji od platformi zahtijeva određenu razinu transparentnosti u pogledu algoritamskog preporučivanja sadržaja (European Commission, 2022). Savjetovanje regulatora uključuje pružanje znanstvene ekspertize utemeljene na empirijskim istraživanjima. Obrazovanje budućih profesionalaca uključuje integraciju etičkih razmatranja u kurikulume komunikoloških studija.

35.4 Zaključak

Ovo poglavlje nastojalo je integrirati sadržaje prethodnih poglavlja ove knjige u koherentnu viziju budućnosti istraživanja masovne komunikacije. Prikazano je što je računalna društvena znanost, kako se razvijala i čime se razlikuje od tradicionalnih pristupa. Analizirane su epistemološke implikacije računalnog obrata, uključujući nove vrste pitanja, nove izazove valjanosti i distinkciju između predikcije i objašnjenja. Detaljno je razmotrena algoritamska posredovanost suvremene komunikacije, njezina arhitektura, emergentne dinamike i metode za njezino proučavanje. Prikazane su nove metode poput velikih jezičnih modela, vizualne analize i temporalnih pristupa te mogućnosti njihove integracije. Argumentirana je nužnost programske pismenosti za suvremene istraživače komunikacije te je ponuđena vizija komunikologije kao hibridne discipline.

Budućnost komunikologije kao znanstvene discipline u značajnoj mjeri ovisi o sposobnosti novih generacija istraživača da integriraju teorijsku osjetljivost za pitanja značenja, moći i društvenih odnosa s tehničkom kompetencijom za navigiranje sve složenijim podatkovnim i algoritamskim krajolikom u kojem se suvremena komunikacija odvija.

Literatura

Aminikhanghahi, S. i Cook, D. J. (2017). A survey of methods for time series change point detection. Knowledge and Information Systems, 51(2), 339–367.

Angrist, J. D. i Pischke, J. S. (2009). Mostly harmless econometrics: An empiricist’s companion. Princeton University Press.

Arrieta, A. B., Díaz-Rodríguez, N., Del Ser, J., Bennetot, A., Tabik, S., Barbado, A., … i Herrera, F. (2020). Explainable artificial intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI. Information Fusion, 58, 82–115.

Atefeh, F. i Khreich, W. (2015). A survey of techniques for event detection in Twitter. Computational Intelligence, 31(1), 132–164.

Bail, C. A. (2014). The cultural environment: Measuring culture with big data. Theory and Society, 43(3–4), 465–482.

Bail, C. A., Argyle, L. P., Brown, T. W., Bumpus, J. P., Chen, H., Hunzaker, M. F., … i Volfovsky, A. (2018). Exposure to opposing views on social media can increase political polarization. Proceedings of the National Academy of Sciences, 115(37), 9216–9221.

Bakshy, E., Messing, S. i Adamic, L. A. (2015). Exposure to ideologically diverse news and opinion on Facebook. Science, 348(6239), 1130–1132.

Barocas, S. i Selbst, A. D. (2016). Big data’s disparate impact. California Law Review, 104, 671–732.

Bateman, J., Wildfeuer, J. i Hiippala, T. (2017). Multimodality: Foundations, research and analysis. De Gruyter Mouton.

Bender, E. M., Gebru, T., McMillan-Major, A. i Shmitchell, S. (2021). On the dangers of stochastic parrots: Can language models be too big? Proceedings of FAccT, 610–623.

Benoit, K., Conway, D., Lauderdale, B. E., Laver, M. i Mikhaylov, S. (2016). Crowd-sourced text analysis: Reproducible and agile production of political data. American Political Science Review, 110(2), 278–295.

Berelson, B. (1952). Content analysis in communication research. Free Press.

Boettiger, C. (2015). An introduction to Docker for reproducible research. ACM SIGOPS Operating Systems Review, 49(1), 71–79.

Box, G. E., Jenkins, G. M., Reinsel, G. C. i Ljung, G. M. (2015). Time series analysis: Forecasting and control (5. izd.). John Wiley & Sons.

Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., … i Amodei, D. (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems, 33, 1877–1901.

Bryan, J. (2018). Excuse me, do you have a moment to talk about version control? The American Statistician, 72(1), 20–27.

Burrell, J. (2016). How the machine ‘thinks’: Understanding opacity in machine learning algorithms. Big Data & Society, 3(1), 1–12.

Castellano, C., Fortunato, S. i Loreto, V. (2009). Statistical physics of social dynamics. Reviews of Modern Physics, 81(2), 591–646.

Covington, P., Adams, J. i Sargin, E. (2016). Deep neural networks for YouTube recommendations. Proceedings of the 10th ACM Conference on Recommender Systems, 191–198.

de Montjoye, Y. A., Hidalgo, C. A., Verleysen, M. i Blondel, V. D. (2013). Unique in the crowd: The privacy bounds of human mobility. Scientific Reports, 3, 1376.

Diakopoulos, N. (2015). Algorithmic accountability: Journalistic investigation of computational power structures. Digital Journalism, 3(3), 398–415.

Dunning, T. (2012). Natural experiments in the social sciences. Cambridge University Press.

Entman, R. M. (1993). Framing: Toward clarification of a fractured paradigm. Journal of Communication, 43(4), 51–58.

Epstein, J. M. (2006). Generative social science: Studies in agent-based computational modeling. Princeton University Press.

European Commission. (2022). Digital Services Act. Official Journal of the European Union.

Floridi, L. i Sanders, J. W. (2004). On the morality of artificial agents. Minds and Machines, 14(3), 349–379.

Freese, J. i Peterson, D. (2017). Replication in social science. Annual Review of Sociology, 43, 147–165.

Gillespie, T. (2014). The relevance of algorithms. U T. Gillespie, P. J. Boczkowski i K. A. Foot (ur.), Media technologies (str. 167–194). MIT Press.

Grimmer, J., Roberts, M. E. i Stewart, B. M. (2022). Text as data: A new framework for machine learning and the social sciences. Princeton University Press.

James, G., Witten, D., Hastie, T. i Tibshirani, R. (2021). An introduction to statistical learning (2. izd.). Springer.

Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., … i Fung, P. (2023). Survey of hallucination in natural language generation. ACM Computing Surveys, 55(12), 1–38.

Joo, J. i Steinert-Threlkeld, Z. C. (2022). Image as data: Automated visual content analysis for political science. Political Analysis, 30(3), 468–485.

Krippendorff, K. (2018). Content analysis: An introduction to its methodology (4. izd.). Sage.

Lazer, D., Pentland, A., Adamic, L., Aral, S., Barabási, A. L., Brewer, D., … i Van Alstyne, M. (2009). Computational social science. Science, 323(5915), 721–723.

Lee, D. S. i Lemieux, T. (2010). Regression discontinuity designs in economics. Journal of Economic Literature, 48(2), 281–355.

McCombs, M. E. i Shaw, D. L. (1972). The agenda-setting function of mass media. Public Opinion Quarterly, 36(2), 176–187.

Milano, S., Taddeo, M. i Floridi, L. (2020). Recommender systems and their ethical challenges. AI & Society, 35, 957–967.

Napoli, P. M. (2014). Automated media: An institutional theory perspective on algorithmic media production and consumption. Communication Theory, 24(3), 340–360.

Nelson, L. K. (2020). Computational grounded theory: A methodological framework. Sociological Methods & Research, 49(1), 3–42.

Nissenbaum, H. (1996). Accountability in a computerized society. Science and Engineering Ethics, 2(1), 25–42.

Noble, S. U. (2018). Algorithms of oppression: How search engines reinforce racism. NYU Press.

Pariser, E. (2011). The filter bubble: What the Internet is hiding from you. Penguin.

Pasquale, F. (2015). The black box society. Harvard University Press.

Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., … i Sutskever, I. (2021). Learning transferable visual models from natural language supervision. Proceedings of ICML, 8748–8763.

Ricci, F., Rokach, L. i Shapira, B. (2015). Recommender systems handbook (2. izd.). Springer.

Rule, A., Tabard, A. i Hollan, J. D. (2018). Exploration and explanation in computational notebooks. Proceedings of CHI, 1–12.

Salganik, M. J. (2018). Bit by bit: Social research in the digital age. Princeton University Press.

Sandvig, C., Hamilton, K., Karahalios, K. i Langbort, C. (2014). Auditing algorithms: Research methods for detecting discrimination on internet platforms. Data and Discrimination: Converting Critical Concerns into Productive Inquiry, 1–23.

Sap, M., Card, D., Gabriel, S., Choi, Y. i Smith, N. A. (2019). The risk of racial bias in hate speech detection. Proceedings of ACL, 1668–1678.

Stier, S., Breuer, J., Siegers, P. i Thorson, K. (2020). Integrating survey data and digital trace data: Key issues in developing an emerging field. Social Science Computer Review, 38(5), 503–516.

Stone, P. J., Dunphy, D. C., Smith, M. S. i Ogilvie, D. M. (1966). The General Inquirer: A computer approach to content analysis. MIT Press.

Tufekci, Z. (2014). Big questions for social media big data: Representativeness, validity and other methodological pitfalls. Proceedings of ICWSM, 505–514.

VanderPlas, J. (2016). Python data science handbook. O’Reilly Media.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … i Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30, 5998–6008.

Watts, D. J. (2003). Six degrees: The science of a connected age. W. W. Norton.

Watts, D. J. (2011). Everything is obvious: Once you know the answer. Crown Business.

Wickham, H. i Grolemund, G. (2017). R for data science. O’Reilly Media.

Wilson, G., Bryan, J., Cranston, K., Kitzes, J., Nederbragt, L. i Teal, T. K. (2017). Good enough practices in scientific computing. PLOS Computational Biology, 13(6), e1005510.

Ziems, C., Held, W., Shaikh, O., Chen, J., Zhang, Z. i Yang, D. (2024). Can large language models transform computational social science? Computational Linguistics, 50(1), 237–291.

Zimmer, M. (2010). “But the data is already public”: On the ethics of research in Facebook. Ethics and Information Technology, 12(4), 313–325.

Zuiderveen Borgesius, F. J., Trilling, D., Möller, J., Bodó, B., De Vreese, C. H. i Helberger, N. (2016). Should we worry about filter bubbles? Internet Policy Review, 5(1), 1–16.