Silabus kolegija
Osnove statistike | Ljetni semestar 2024/2025
| Kolegij | Osnove statistike |
| Studij | Komunikologija, Hrvatsko katoličko sveučilište |
| Godina | 2. godina preddiplomskog studija |
| Semestar | Ljetni semestar 2024/2025 |
| ECTS | 6 |
| Opterećenje | 30 sati predavanja + 30 sati seminara |
| Nositelj | doc. dr. sc. Luka Šikić |
O kolegiju
Statistika je jezik podataka, a podaci su danas svugdje: od metrika društvenih mreža do rezultata istraživanja javnog mnijenja. Ovaj kolegij osmišljen je tako da studente komunikologije opremi alatima za razumijevanje i korištenje podataka u profesionalnom kontekstu.
Kolegij prati logiku postupnog građenja znanja. Počinjemo s pitanjem zašto komunikolog uopće treba statistiku, upoznajemo se s R-om kao alatom za analizu podataka, učimo organizirati i vizualizirati podatke, a zatim prelazimo na inferencijalne metode koje nam omogućuju donošenje zaključaka na temelju uzoraka. Svaki tjedan gradi se na prethodnom, a svi primjeri dolaze iz svijeta medija i komunikacija.
Sadržajna okosnica kolegija inspirirana je knjigom Learning Statistics with R autorice Danielle Navarro (CC BY-SA 4.0), prilagođena za komunikologe i modernizirana korištenjem tidyverse pristupa u R-u.
Cjelina 1: Uvod i osnove programiranja
Tjedni 1 do 4
Prva cjelina postavlja temelje. Prije nego što se upustimo u bilo kakvu analizu, trebamo razumjeti zašto statistika uopće postoji i kako nam pomaže razlučiti signal od šuma u podacima. Zatim gradimo praktične vještine u R-u: učitavanje podataka, čišćenje i transformacija, te pisanje funkcija i skripti. Na kraju ove cjeline svaki student ima funkcionalan radni tok i može samostalno pripremiti dataset za analizu.
Tjedan 1: Zašto statistika? Uvod u istraživački dizajn
Zašto bi komunikolog trebao razumjeti statistiku? Kroz Simpsonov paradoks u medijskim anketama i primjere obmanjujućih grafikona, otkrivamo koliko je lako izvesti krivi zaključak bez rigoroznog pristupa podacima. Predavanje uvodi osnove istraživačkog dizajna: razine mjerenja (nominalna, ordinalna, intervalna, omjerna), pouzdanost i valjanost mjerenja, te razliku između eksperimentalnih i opservacijskih studija u kontekstu medijskih istraživanja.
HTML | PDF | DOCX | Izvorni kod
Tjedan 2: Uvod u R i tidyverse
Studenti instaliraju R i Positron te odmah kreću s tidyverse pristupom, modernim ekosistemom paketa koji čini rad s podacima intuitivnim i čitljivim. Od početka koristimo tibbleove umjesto data.frameova, pipe operator (|>) za ulančavanje operacija i readr za učitavanje podataka. Na kraju tjedna svaki student samostalno učitava i pregledava dataset o korištenju društvenih mreža.
HTML | PDF | DOCX | Izvorni kod
Tjedan 3: Rad s podacima u tidyverse
Čišćenje i transformacija podataka oduzima oko 80% vremena svake analize, a upravo tu se gradi ili gubi kvaliteta istraživanja. Ovaj tjedan posvećen je praktičnom radu s dplyr glagolima (filter(), select(), mutate(), summarise(), group_by()) i tidyr funkcijama za preoblikovanje podataka (pivot_longer(), pivot_wider()). Na primjeru studentske ankete o medijskim navikama, studenti prolaze cijeli put od sirovih, neurednih podataka do dataseta spremnog za analizu.
HTML | PDF | DOCX | Izvorni kod
Tjedan 4: Programiranje u R
Prije nego što počnemo pisati analize, trebamo naučiti organizirati svoj kod. Ovo predavanje uvodi koncepte koji čine razliku između jednokratne analize i ponovljivog istraživanja: pisanje vlastitih funkcija, uvjetne naredbe (if/else, case_when()), petlje i funkcionalno programiranje s purrr::map(). Kroz primjer automatske analize newsletter kampanja, studenti usvajaju DRY princip i uče strukturirati skripte za ponovnu upotrebu.
HTML | PDF | DOCX | Izvorni kod
Cjelina 2: Deskriptivna statistika i vizualizacija
Tjedni 5 i 6
Sada kada znamo učitati i pripremiti podatke, trebamo ih opisati i prikazati. Ova kratka ali ključna cjelina uči nas kako brojkama sažeti ono što podaci govore i kako te iste podatke pretvoriti u vizualne priče. Brojke bez grafova su apstraktne, a grafovi bez konteksta mogu biti obmanjujući.
Tjedan 5: Deskriptivna statistika
Kako jednim brojem opisati cijelu distribuciju? Predavanje obrađuje mjere centralne tendencije (aritmetička sredina, medijan, mod) i mjere varijabilnosti (raspon, standardna devijacija, IQR), sve izračunato pomoću summarise() i group_by(). Uvode se i z-vrijednosti za standardizaciju te Pearsonova i Spearmanova korelacija. Na primjeru podataka o korištenju TikToka po dobnim skupinama, studenti uče zašto samo prosjek nije dovoljan: bez informacije o raspršenosti, prosjek može biti potpuno obmanjujući.
HTML | PDF | DOCX | Izvorni kod
Tjedan 6: Vizualizacija podataka s ggplot2
Anscombeov kvartet demonstrira zašto su grafovi nezamjenjivi: četiri potpuno različita uzorka podataka imaju identičnu deskriptivnu statistiku, ali izgledaju sasvim drugačije kada ih nacrtamo. Predavanje uvodi gramatiku grafike, filozofiju ggplot2 paketa u kojoj se svaki graf gradi slaganjem slojeva: podaci, estetike, geometrije, facete i teme. Studenti izrađuju histograme, boxplotove, scatterplotove, density plotove i bar chartove koristeći podatke o angažmanu čitatelja na portalima.
HTML | PDF | DOCX | Izvorni kod
Cjelina 3: Statistička teorija
Tjedni 7 do 9
Ova cjelina čini konceptualni most između opisivanja podataka i donošenja zaključaka. Kako iz uzorka od 500 ispitanika možemo nešto zaključiti o cijeloj populaciji? Odgovor leži u teoriji vjerojatnosti, distribucijama uzorkovanja i formalnom postupku testiranja hipoteza. Ovi tjedni grade matematičku intuiciju neophodnu za razumijevanje svih statističkih testova koji slijede.
Tjedan 7: Uvod u vjerojatnost
Što zapravo znači kada kažemo da objava ima 3% šanse da postane viralna? Predavanje gradi intuiciju za vjerojatnost kroz praktične primjere, od bacanja novčića do A/B testova email kampanja. Obrađuju se osnovna pravila vjerojatnosti (komplement, zbrajanje, množenje), binomna distribucija za modeliranje broja uspjeha u nizu pokusa, te normalna distribucija s pravilom 68-95-99.7 i Q-Q plotovima. Na datasetu od 2000 objava na društvenim mrežama, studenti istražuju distribuciju lajkova i otkrivaju zašto je logaritamska transformacija korisna za iskrivljene podatke.
HTML | PDF | DOCX | Izvorni kod
Tjedan 8: Uzorkovanje, procjena i intervali pouzdanosti
Svako istraživanje javnog mnijenja navodi “marginu pogreške”, ali što taj broj zapravo znači? Predavanje objašnjava temeljni problem statistike: kako iz dijela (uzorka) saznati nešto o cjelini (populaciji). Kroz simulaciju na populaciji od 50.000 osoba, studenti vizualiziraju distribuciju uzorkovanja, centralni granični teorem i standardnu pogrešku. Zatim konstruiraju intervale pouzdanosti i uče ih pravilno interpretirati: ne kao raspon u kojem se “nalazi pravi parametar s 95% vjerojatnosti”, već kao postupak koji u 95% slučajeva daje interval koji obuhvaća pravi parametar.
HTML | PDF | DOCX | Izvorni kod
Tjedan 9: Testiranje hipoteza
Je li opažena razlika u angažmanu između carousel i običnih objava na Instagramu stvarna ili samo posljedica slučajnosti? Testiranje hipoteza daje formalan okvir za odgovor na takva pitanja. Predavanje objašnjava logiku kroz analogiju sa suđenjem: nulta hipoteza je “nevin dok se ne dokaže krivnja”. Studenti uče formulirati hipoteze, izračunati testnu statistiku i p-vrijednost, te razumjeti greške tipa I i II. Poseban naglasak stavljen je na veličinu učinka (Cohenov d) i statističku snagu, jer statistička značajnost bez praktične važnosti nema smisla.
HTML | PDF | DOCX | Izvorni kod
Cjelina 4: Inferencijalna statistika
Tjedni 10 do 13
Završna cjelina primjenjuje sve naučeno na konkretne statističke testove s kojima se komunikolozi najčešće susreću u praksi. Svaki tjedan donosi novi tip testa prilagođen vrsti podataka i istraživačkom pitanju. Svaki test prate provjera pretpostavki, mjera veličine učinka i neparametarska alternativa.
Tjedan 10: Kategorički podaci i hi-kvadrat testovi
Kada su varijable kategorije (tip medija, dobna skupina, spol), ne možemo računati prosjeke, ali možemo testirati postoji li veza među njima. Predavanje obrađuje hi-kvadrat test slaganja (odgovaraju li opažene frekvencije očekivanim?) i test nezavisnosti (postoji li veza između tipa medija i dobi publike?). Studenti uče čitati kontingencijske tablice, interpretirati standardizirane reziduale, koristiti Cramérovo V kao mjeru veličine učinka, te primijeniti Fisherov egzaktni test kada su očekivane frekvencije premale. Na anketi od 800 ispitanika otkrivamo generacijski jaz u medijskim navikama.
HTML | PDF | DOCX | Izvorni kod
Tjedan 11: Usporedba prosjeka s t-testovima
Čitaju li ljudi članke brže ili sporije kada imaju vizualne elemente? T-test je najčešći alat za usporedbu dviju grupa. Predavanje pokriva tri varijante: t-test za jedan uzorak (razlikuje li se naš prosjek od poznate vrijednosti?), t-test za nezavisne uzorke (razlikuju li se dvije grupe?) i upareni t-test (postoji li promjena unutar istih subjekata?). Za svaku varijantu studenti provjeravaju pretpostavke (Shapiro-Wilkov test, Q-Q plotovi), računaju Cohenov d i uče kada primijeniti Wilcoxonov neparametrijski test.
HTML | PDF | DOCX | Izvorni kod
Tjedan 12: Usporedba više grupa s ANOVA-om
Kada želimo usporediti vjerodostojnost vijesti iz pet različitih izvora (TV, portal, društvena mreža, novine, podcast), ne možemo provesti 10 zasebnih t-testova jer svaki test nosi rizik lažno pozitivnog rezultata, a s 10 testova taj rizik eksplodira. ANOVA rješava ovaj problem testirajući sve grupe odjednom. Predavanje objašnjava logiku F-statistike (omjer varijance između grupa i varijance unutar grupa), Tukeyjev HSD post-hoc test, eta-kvadrat kao mjeru veličine učinka, te Kruskal-Wallisov test kao neparametarsku alternativu.
HTML | PDF | DOCX | Izvorni kod
Tjedan 13: Linearna regresija
Svi dosadašnji testovi uspoređivali su grupe. Regresija ide korak dalje i omogućuje predviđanje jedne varijable na temelju jedne ili više drugih. Koliko dodatnih lajkova donosi svaki dodatni hashtag? Predavanje gradi put od jednostavne regresije (jedan prediktor) do višestruke regresije (više prediktora), objašnjava R-kvadrat kao mjeru koliko model objašnjava varijabilnost, te uvodi dijagnostiku modela kroz rezidualne plotove, Cookovu udaljenost i provjeru multikolinearnosti. Na datasetu o angažmanu objava na Instagramu, studenti grade, uspoređuju i interpretiraju regresijske modele.
Seminarske aktivnosti
| Tjedan | Tip | Aktivnost |
|---|---|---|
| 1 | Diskusija | Primjeri loše interpretacije statistike u medijima |
| 2 | Radionica | Instalacija R-a i Positrona, prvi koraci |
| 3 | Vježba | Čišćenje i transformacija dataseta |
| 4 | Vježba | Pisanje vlastite funkcije za analizu podataka |
| 5 | Vježba | Izračun deskriptivnih statistika za medijski dataset |
| 6 | Radionica | Izrada vizualizacija u ggplot2 |
| 7 | Vježba | Računanje vjerojatnosti i rad s distribucijama u R-u |
| 8 | Vježba | Računanje intervala pouzdanosti za medijske podatke |
| 9 | Vježba | Provođenje i interpretacija testova hipoteza |
| 10 | Vježba | Hi-kvadrat testovi na podacima o medijskim preferencijama |
| 11 | Vježba | Provedba t-testova i interpretacija rezultata |
| 12 | Vježba | ANOVA analiza na podacima o percepciji medija |
| 13 | Radionica | Izgradnja regresijskog modela za medijske podatke |
Literatura
Potpuni popis literature s anotacijama dostupan je na stranici Popis literature. Ključni izvori:
- Navarro, D. (2018). Learning Statistics with R. Besplatno online [O]
- Wickham, H. & Grolemund, G. (2023). R for Data Science (2. izdanje). Besplatno online [O]
- Field, A. (2017). Discovering Statistics Using IBM SPSS Statistics (5. izdanje). Sage.
- Ismay, C. & Kim, A. Y. (2019). ModernDive: Statistical Inference via Data Science. Besplatno online
Ocjenjivanje
| Komponenta | Udio | Opis |
|---|---|---|
| Seminarske vježbe | 30% | Aktivno sudjelovanje i predaja vježbi |
| Praktični projekt | 50% | Samostalna analiza podataka s izvještajem |
| Sudjelovanje | 20% | Dolasci i aktivnost na nastavi |
Skala ocjenjivanja
| Ocjena | Postotak |
|---|---|
| Izvrstan (5) | 90 do 100% |
| Vrlo dobar (4) | 80 do 89% |
| Dobar (3) | 65 do 79% |
| Dovoljan (2) | 50 do 64% |
| Nedovoljan (1) | ispod 50% |