Silabus kolegija

Osnove statistike | Ljetni semestar 2024/2025

NoteKontekst kolegija
Kolegij Osnove statistike
Studij Komunikologija, Hrvatsko katoličko sveučilište
Godina 2. godina preddiplomskog studija
Semestar Ljetni semestar 2024/2025
ECTS 6
Opterećenje 30 sati predavanja + 30 sati seminara
Nositelj doc. dr. sc. Luka Šikić

O kolegiju

Statistika je jezik podataka, a podaci su danas svugdje: od metrika društvenih mreža do rezultata istraživanja javnog mnijenja. Ovaj kolegij osmišljen je tako da studente komunikologije opremi alatima za razumijevanje i korištenje podataka u profesionalnom kontekstu.

Kolegij prati logiku postupnog građenja znanja. Počinjemo s pitanjem zašto komunikolog uopće treba statistiku, upoznajemo se s R-om kao alatom za analizu podataka, učimo organizirati i vizualizirati podatke, a zatim prelazimo na inferencijalne metode koje nam omogućuju donošenje zaključaka na temelju uzoraka. Svaki tjedan gradi se na prethodnom, a svi primjeri dolaze iz svijeta medija i komunikacija.

Sadržajna okosnica kolegija inspirirana je knjigom Learning Statistics with R autorice Danielle Navarro (CC BY-SA 4.0), prilagođena za komunikologe i modernizirana korištenjem tidyverse pristupa u R-u.

Cjelina 1: Uvod i osnove programiranja

Tjedni 1 do 4

Prva cjelina postavlja temelje. Prije nego što se upustimo u bilo kakvu analizu, trebamo razumjeti zašto statistika uopće postoji i kako nam pomaže razlučiti signal od šuma u podacima. Zatim gradimo praktične vještine u R-u: učitavanje podataka, čišćenje i transformacija, te pisanje funkcija i skripti. Na kraju ove cjeline svaki student ima funkcionalan radni tok i može samostalno pripremiti dataset za analizu.

Tjedan 1: Zašto statistika? Uvod u istraživački dizajn

Zašto bi komunikolog trebao razumjeti statistiku? Kroz Simpsonov paradoks u medijskim anketama i primjere obmanjujućih grafikona, otkrivamo koliko je lako izvesti krivi zaključak bez rigoroznog pristupa podacima. Predavanje uvodi osnove istraživačkog dizajna: razine mjerenja (nominalna, ordinalna, intervalna, omjerna), pouzdanost i valjanost mjerenja, te razliku između eksperimentalnih i opservacijskih studija u kontekstu medijskih istraživanja.

Tjedan 2: Uvod u R i tidyverse

Studenti instaliraju R i Positron te odmah kreću s tidyverse pristupom, modernim ekosistemom paketa koji čini rad s podacima intuitivnim i čitljivim. Od početka koristimo tibbleove umjesto data.frameova, pipe operator (|>) za ulančavanje operacija i readr za učitavanje podataka. Na kraju tjedna svaki student samostalno učitava i pregledava dataset o korištenju društvenih mreža.

Tjedan 3: Rad s podacima u tidyverse

Čišćenje i transformacija podataka oduzima oko 80% vremena svake analize, a upravo tu se gradi ili gubi kvaliteta istraživanja. Ovaj tjedan posvećen je praktičnom radu s dplyr glagolima (filter(), select(), mutate(), summarise(), group_by()) i tidyr funkcijama za preoblikovanje podataka (pivot_longer(), pivot_wider()). Na primjeru studentske ankete o medijskim navikama, studenti prolaze cijeli put od sirovih, neurednih podataka do dataseta spremnog za analizu.

Tjedan 4: Programiranje u R

Prije nego što počnemo pisati analize, trebamo naučiti organizirati svoj kod. Ovo predavanje uvodi koncepte koji čine razliku između jednokratne analize i ponovljivog istraživanja: pisanje vlastitih funkcija, uvjetne naredbe (if/else, case_when()), petlje i funkcionalno programiranje s purrr::map(). Kroz primjer automatske analize newsletter kampanja, studenti usvajaju DRY princip i uče strukturirati skripte za ponovnu upotrebu.

Cjelina 2: Deskriptivna statistika i vizualizacija

Tjedni 5 i 6

Sada kada znamo učitati i pripremiti podatke, trebamo ih opisati i prikazati. Ova kratka ali ključna cjelina uči nas kako brojkama sažeti ono što podaci govore i kako te iste podatke pretvoriti u vizualne priče. Brojke bez grafova su apstraktne, a grafovi bez konteksta mogu biti obmanjujući.

Tjedan 5: Deskriptivna statistika

Kako jednim brojem opisati cijelu distribuciju? Predavanje obrađuje mjere centralne tendencije (aritmetička sredina, medijan, mod) i mjere varijabilnosti (raspon, standardna devijacija, IQR), sve izračunato pomoću summarise() i group_by(). Uvode se i z-vrijednosti za standardizaciju te Pearsonova i Spearmanova korelacija. Na primjeru podataka o korištenju TikToka po dobnim skupinama, studenti uče zašto samo prosjek nije dovoljan: bez informacije o raspršenosti, prosjek može biti potpuno obmanjujući.

Tjedan 6: Vizualizacija podataka s ggplot2

Anscombeov kvartet demonstrira zašto su grafovi nezamjenjivi: četiri potpuno različita uzorka podataka imaju identičnu deskriptivnu statistiku, ali izgledaju sasvim drugačije kada ih nacrtamo. Predavanje uvodi gramatiku grafike, filozofiju ggplot2 paketa u kojoj se svaki graf gradi slaganjem slojeva: podaci, estetike, geometrije, facete i teme. Studenti izrađuju histograme, boxplotove, scatterplotove, density plotove i bar chartove koristeći podatke o angažmanu čitatelja na portalima.

Cjelina 3: Statistička teorija

Tjedni 7 do 9

Ova cjelina čini konceptualni most između opisivanja podataka i donošenja zaključaka. Kako iz uzorka od 500 ispitanika možemo nešto zaključiti o cijeloj populaciji? Odgovor leži u teoriji vjerojatnosti, distribucijama uzorkovanja i formalnom postupku testiranja hipoteza. Ovi tjedni grade matematičku intuiciju neophodnu za razumijevanje svih statističkih testova koji slijede.

Tjedan 7: Uvod u vjerojatnost

Što zapravo znači kada kažemo da objava ima 3% šanse da postane viralna? Predavanje gradi intuiciju za vjerojatnost kroz praktične primjere, od bacanja novčića do A/B testova email kampanja. Obrađuju se osnovna pravila vjerojatnosti (komplement, zbrajanje, množenje), binomna distribucija za modeliranje broja uspjeha u nizu pokusa, te normalna distribucija s pravilom 68-95-99.7 i Q-Q plotovima. Na datasetu od 2000 objava na društvenim mrežama, studenti istražuju distribuciju lajkova i otkrivaju zašto je logaritamska transformacija korisna za iskrivljene podatke.

Tjedan 8: Uzorkovanje, procjena i intervali pouzdanosti

Svako istraživanje javnog mnijenja navodi “marginu pogreške”, ali što taj broj zapravo znači? Predavanje objašnjava temeljni problem statistike: kako iz dijela (uzorka) saznati nešto o cjelini (populaciji). Kroz simulaciju na populaciji od 50.000 osoba, studenti vizualiziraju distribuciju uzorkovanja, centralni granični teorem i standardnu pogrešku. Zatim konstruiraju intervale pouzdanosti i uče ih pravilno interpretirati: ne kao raspon u kojem se “nalazi pravi parametar s 95% vjerojatnosti”, već kao postupak koji u 95% slučajeva daje interval koji obuhvaća pravi parametar.

Tjedan 9: Testiranje hipoteza

Je li opažena razlika u angažmanu između carousel i običnih objava na Instagramu stvarna ili samo posljedica slučajnosti? Testiranje hipoteza daje formalan okvir za odgovor na takva pitanja. Predavanje objašnjava logiku kroz analogiju sa suđenjem: nulta hipoteza je “nevin dok se ne dokaže krivnja”. Studenti uče formulirati hipoteze, izračunati testnu statistiku i p-vrijednost, te razumjeti greške tipa I i II. Poseban naglasak stavljen je na veličinu učinka (Cohenov d) i statističku snagu, jer statistička značajnost bez praktične važnosti nema smisla.

Cjelina 4: Inferencijalna statistika

Tjedni 10 do 13

Završna cjelina primjenjuje sve naučeno na konkretne statističke testove s kojima se komunikolozi najčešće susreću u praksi. Svaki tjedan donosi novi tip testa prilagođen vrsti podataka i istraživačkom pitanju. Svaki test prate provjera pretpostavki, mjera veličine učinka i neparametarska alternativa.

Tjedan 10: Kategorički podaci i hi-kvadrat testovi

Kada su varijable kategorije (tip medija, dobna skupina, spol), ne možemo računati prosjeke, ali možemo testirati postoji li veza među njima. Predavanje obrađuje hi-kvadrat test slaganja (odgovaraju li opažene frekvencije očekivanim?) i test nezavisnosti (postoji li veza između tipa medija i dobi publike?). Studenti uče čitati kontingencijske tablice, interpretirati standardizirane reziduale, koristiti Cramérovo V kao mjeru veličine učinka, te primijeniti Fisherov egzaktni test kada su očekivane frekvencije premale. Na anketi od 800 ispitanika otkrivamo generacijski jaz u medijskim navikama.

Tjedan 11: Usporedba prosjeka s t-testovima

Čitaju li ljudi članke brže ili sporije kada imaju vizualne elemente? T-test je najčešći alat za usporedbu dviju grupa. Predavanje pokriva tri varijante: t-test za jedan uzorak (razlikuje li se naš prosjek od poznate vrijednosti?), t-test za nezavisne uzorke (razlikuju li se dvije grupe?) i upareni t-test (postoji li promjena unutar istih subjekata?). Za svaku varijantu studenti provjeravaju pretpostavke (Shapiro-Wilkov test, Q-Q plotovi), računaju Cohenov d i uče kada primijeniti Wilcoxonov neparametrijski test.

Tjedan 12: Usporedba više grupa s ANOVA-om

Kada želimo usporediti vjerodostojnost vijesti iz pet različitih izvora (TV, portal, društvena mreža, novine, podcast), ne možemo provesti 10 zasebnih t-testova jer svaki test nosi rizik lažno pozitivnog rezultata, a s 10 testova taj rizik eksplodira. ANOVA rješava ovaj problem testirajući sve grupe odjednom. Predavanje objašnjava logiku F-statistike (omjer varijance između grupa i varijance unutar grupa), Tukeyjev HSD post-hoc test, eta-kvadrat kao mjeru veličine učinka, te Kruskal-Wallisov test kao neparametarsku alternativu.

Tjedan 13: Linearna regresija

Svi dosadašnji testovi uspoređivali su grupe. Regresija ide korak dalje i omogućuje predviđanje jedne varijable na temelju jedne ili više drugih. Koliko dodatnih lajkova donosi svaki dodatni hashtag? Predavanje gradi put od jednostavne regresije (jedan prediktor) do višestruke regresije (više prediktora), objašnjava R-kvadrat kao mjeru koliko model objašnjava varijabilnost, te uvodi dijagnostiku modela kroz rezidualne plotove, Cookovu udaljenost i provjeru multikolinearnosti. Na datasetu o angažmanu objava na Instagramu, studenti grade, uspoređuju i interpretiraju regresijske modele.

Seminarske aktivnosti

Tjedan Tip Aktivnost
1 Diskusija Primjeri loše interpretacije statistike u medijima
2 Radionica Instalacija R-a i Positrona, prvi koraci
3 Vježba Čišćenje i transformacija dataseta
4 Vježba Pisanje vlastite funkcije za analizu podataka
5 Vježba Izračun deskriptivnih statistika za medijski dataset
6 Radionica Izrada vizualizacija u ggplot2
7 Vježba Računanje vjerojatnosti i rad s distribucijama u R-u
8 Vježba Računanje intervala pouzdanosti za medijske podatke
9 Vježba Provođenje i interpretacija testova hipoteza
10 Vježba Hi-kvadrat testovi na podacima o medijskim preferencijama
11 Vježba Provedba t-testova i interpretacija rezultata
12 Vježba ANOVA analiza na podacima o percepciji medija
13 Radionica Izgradnja regresijskog modela za medijske podatke

Literatura

Potpuni popis literature s anotacijama dostupan je na stranici Popis literature. Ključni izvori:

  1. Navarro, D. (2018). Learning Statistics with R. Besplatno online [O]
  2. Wickham, H. & Grolemund, G. (2023). R for Data Science (2. izdanje). Besplatno online [O]
  3. Field, A. (2017). Discovering Statistics Using IBM SPSS Statistics (5. izdanje). Sage.
  4. Ismay, C. & Kim, A. Y. (2019). ModernDive: Statistical Inference via Data Science. Besplatno online

Ocjenjivanje

Komponenta Udio Opis
Seminarske vježbe 30% Aktivno sudjelovanje i predaja vježbi
Praktični projekt 50% Samostalna analiza podataka s izvještajem
Sudjelovanje 20% Dolasci i aktivnost na nastavi

Skala ocjenjivanja

Ocjena Postotak
Izvrstan (5) 90 do 100%
Vrlo dobar (4) 80 do 89%
Dobar (3) 65 do 79%
Dovoljan (2) 50 do 64%
Nedovoljan (1) ispod 50%