17 Osnove statističkog zaključivanja

18 Osnove statističkog zaključivanja

Zamislimo istraživačicu koja provodi anketu o povjerenju u medije među 500 nasumično odabranih hrvatskih građana. Prosječna ocjena povjerenja u njezinom uzorku iznosi 5.2 na skali od 1 do 10. Istraživačica želi na temelju tog podatka zaključiti nešto o cijeloj populaciji hrvatskih građana, ali odmah se suočava s nizom pitanja. Je li 5.2 dovoljno blizu pravoj prosječnoj ocjeni u cijeloj populaciji? Koliko bi procjena mogla odstupati od stvarne vrijednosti? I ako HRT tvrdi da je prosječno povjerenje u njihov program 6.0, može li se na temelju prikupljenih podataka zaključiti da ta tvrdnja ne odgovara stvarnosti? Odgovori na ova pitanja zahtijevaju alate koji omogućuju prelazak od konkretnih podataka iz uzorka prema općenitim zaključcima o populaciji, tj. alate statističkog zaključivanja.

Istraživač medija rijetko ima priliku analizirati cijelu populaciju koja ga zanima. Kada se istražuje percepcija kredibiliteta vijesti, nije moguće anketirati svih četiri milijuna odraslih osoba u Hrvatskoj. Umjesto toga, prikuplja se uzorak od, primjerice, 500 ili 1000 ispitanika, te se na temelju tog uzorka izvode zaključci o cijeloj populaciji. Upravo ta tranzicija od konkretnih podataka prema općenitim zaključcima predstavlja srž inferencijalne statistike, tj. grane statistike koja se bavi izvođenjem zaključaka o populaciji na temelju uzorka. Za razliku od deskriptivne statistike, koja samo opisuje podatke prikupljene u uzorku (v. poglavlje 8), inferencijalna statistika omogućuje generalizaciju, tj. prelazak od specifičnog prema općenitom.

Statistička inferencija temelji se na ideji da, iako nikada neće biti poznata točna vrijednost populacijskog parametra (npr. prava prosječna gledanost svih televizijskih programa), moguće je kvantificirati nesigurnost procjene i donositi racionalne odluke unatoč toj nesigurnosti. Svaki put kada se čita izvještaj o istraživanju javnog mnijenja, anketi o medijskim navikama ili studiji o učincima medijskih poruka, rezultati su dobiveni iz uzoraka. Pitanja poput „Je li porast nepovjerenja u medije statistički značajan?” ili „Postoji li stvarna razlika u gledanosti između televizijskih kuća?” zahtijevaju poznavanje principa koji se obrađuju u ovom poglavlju. U kontekstu istraživanja masovne komunikacije, razumijevanje statističkog zaključivanja stoga ima izuzetnu praktičnu važnost.

Poglavlje je organizirano u dva veća odjeljka. U prvom se obrađuje put od uzorka do populacije, pri čemu se najprije objašnjava normalna distribucija kao teorijski temelj, zatim centralni granični teorem koji opravdava korištenje normalne distribucije u inferencijalnoj statistici, te standardna pogreška i intervali pouzdanosti kao mjere nesigurnosti procjene. Drugi odjeljak posvećen je inferencijalnoj statistici u užem smislu, gdje se razrađuje logika testiranja hipoteza, pojam testne statistike i kritične regije, interpretacija p-vrijednosti, vrste pogrešaka u statističkom zaključivanju te moć testa. Poglavlje završava cjelovitim primjerom koji povezuje sve obrađene koncepte u jedinstven istraživački scenarij, čime se demonstrira praktična primjena statističkog zaključivanja u istraživanju masovne komunikacije.

18.1 Od uzorka do populacije

18.1.1 Normalna distribucija

Kada se crta histogram dnevne gledanosti televizijskih vijesti, vremena provedenog na društvenim mrežama ili ocjena kvalitete članaka, često se primjećuje da distribucija ima karakterističan oblik: podaci se grupiraju oko srednje vrijednosti, s postepenim opadanjem prema ekstremima s obje strane. Ovaj obrazac toliko se često pojavljuje u prirodi i društvenim znanostima da dobiva poseban status u statistici. Naziva se normalna distribucija ili „zvonasta krivulja” (engl. bell curve), i predstavlja najvažniju teorijsku distribuciju u statistici.

Razlog česte pojavnosti normalne distribucije leži u činjenici da mnoge varijable koje se mjere nastaju kao zbroj velikog broja malih, nezavisnih utjecaja. Primjerice, vrijeme koje čitatelj provede na članku ovisi o brojnim faktorima: interesu za temu, raspoloživom vremenu, duljini članka, kvaliteti pisanja, prisutnosti distraktora i tako dalje. Kada mnogo takvih malih faktora doprinosi konačnoj vrijednosti, rezultirajuća distribucija tendira biti normalna, tj. fenomen koji formalizira centralni granični teorem, o čemu će biti riječi u sljedećem potpoglavlju.

Normalna distribucija je kontinuirana distribucija, što znači da može poprimiti bilo koju vrijednost unutar svog raspona, ne samo diskretne brojeve. Za razliku od diskretnih distribucija gdje je moguće dobiti točno 3 ili 4 uspjeha (ali ne 3.5), varijable poput vremena čitanja ili gledanosti mogu poprimiti bilo koju vrijednost. Normalna distribucija potpuno je određena s dva parametra: sredinom $\mu$ (čita se „mi”) i standardnom devijacijom $\sigma$ (čita se „sigma”). Sredina određuje gdje je distribucija centrirana na brojčanoj osi, dok standardna devijacija određuje koliko je distribucija „raširena”. Drugim riječima, sredina nam govori o „tipičnoj” vrijednosti, dok nam standardna devijacija kaže koliko se vrijednosti tipično razlikuju od te sredine.

Matematičku notaciju za normalnu distribuciju zapisuje se ovako: $X \sim \text{Normal}(\mu, \sigma)$, što se čita „varijabla X slijedi normalnu distribuciju sa sredinom $\mu$ i standardnom devijacijom $\sigma$“. Ako se pretpostavi da prosječno vrijeme čitanja članaka na nekom novinskom portalu slijedi normalnu distribuciju sa sredinom od 120 sekundi i standardnom devijacijom od 30 sekundi, zapis bi glasio: $X \sim \text{Normal}(120, 30)$. Ova notacija kompaktno sažima sve što je potrebno znati o distribuciji varijable.

Poseban slučaj normalne distribucije je standardna normalna distribucija s $\mu = 0$ i $\sigma = 1$. Bilo koja normalna distribucija može se transformirati u standardnu normalnu pomoću z-transformacije:

\[z = \frac{X - \mu}{\sigma}\]

Ova formula kaže da se od svake opažene vrijednosti $X$ oduzme sredina distribucije $\mu$, a rezultat se podijeli sa standardnom devijacijom $\sigma$. Time se dobiva z-vrijednost koja govori koliko je standardnih devijacija neka opservacija udaljena od sredine. Primjerice, ako čitatelj provede 180 sekundi na članku (uz $\mu = 120$ i $\sigma = 30$), njegova z-vrijednost iznosi $(180 - 120)/30 = 2.0$, što znači da je proveo točno dvije standardne devijacije iznad prosjeka. Zahvaljujući z-transformaciji, moguće je koristiti iste tablice vjerojatnosti neovisno o izvornim jedinicama mjerenja.

Code

x <- seq(-4, 4, by = 0.01)
y <- dnorm(x, mean = 0, sd = 1)

df_norm <- data.frame(x = x, y = y)

ggplot(df_norm, aes(x = x, y = y)) +
  geom_line(linewidth = 1) +
  geom_area(data = subset(df_norm, x >= -1 & x <= 1),
            aes(x = x, y = y), fill = "gray70", alpha = 0.5) +
  geom_area(data = subset(df_norm, x >= -2 & x <= -1),
            aes(x = x, y = y), fill = "gray50", alpha = 0.5) +
  geom_area(data = subset(df_norm, x >= 1 & x <= 2),
            aes(x = x, y = y), fill = "gray50", alpha = 0.5) +
  geom_vline(xintercept = c(-2, -1, 0, 1, 2), linetype = "dashed", alpha = 0.5) +
  annotate("text", x = 0, y = 0.15, label = "68%", size = 4, fontface = "bold") +
  annotate("text", x = 0, y = 0.02, label = "95%", size = 3.5) +
  scale_x_continuous(breaks = -3:3,
                     labels = c("-3\u03c3", "-2\u03c3", "-1\u03c3", "\u03bc", "+1\u03c3", "+2\u03c3", "+3\u03c3")) +
  labs(
    title = "Standardna normalna distribucija",
    subtitle = "Empirijsko pravilo: 68% unutar \u00b11\u03c3, 95% unutar \u00b12\u03c3",
    x = "Standardne devijacije od sredine",
    y = "Gusto\u0107a vjerojatnosti"
  )

Figure 18.1: Normalna distribucija s označenim empirijskim pravilom. Tamnije sivo područje obuhvaća 68% podataka (±1σ), a ukupno označeno područje obuhvaća 95% podataka (±2σ).

Neovisno o konkretnim vrijednostima sredine i standardne devijacije, sve normalne distribucije dijele važna svojstva. Empirijsko pravilo (također poznato kao pravilo 68-95-99.7) govori da približno 68% opservacija pada unutar jedne standardne devijacije od sredine ($\mu \pm \sigma$), približno 95% opservacija pada unutar dvije standardne devijacije ($\mu \pm 2\sigma$), i približno 99.7% opservacija pada unutar tri standardne devijacije ($\mu \pm 3\sigma$). Ovo pravilo omogućuje brzu procjenu normalnosti distribucije: ako su stvarni podaci vrlo daleko od ovih postotaka, distribucija vjerojatno nije normalna.

Za konkretan primjer, pretpostavimo da prosječno vrijeme čitanja članaka na nekom portalu slijedi normalnu distribuciju s $\mu = 120$ sekundi i $\sigma = 30$ sekundi. Prema empirijskom pravilu, 68% čitatelja provodi između 90 i 150 sekundi (120 ± 30), 95% između 60 i 180 sekundi (120 ± 60), i gotovo svi (99.7%) između 30 i 210 sekundi (120 ± 90). U programskom jeziku R, rad s normalnom distribucijom omogućen je putem ugrađenih funkcija dnorm(), pnorm(), qnorm() i rnorm(). Funkcija pnorm() računa kumulativnu vjerojatnost, tj. vjerojatnost da varijabla poprimi vrijednost manju od zadane. Primjerice, za izračun udjela čitatelja koji čitaju kraće od 90 sekundi koristi se pnorm(90, mean = 120, sd = 30), što vraća vrijednost od približno 0.159, tj. oko 16% čitatelja.

Code

# Udio citatelja koji citaju krace od 90 sekundi
pnorm(90, mean = 120, sd = 30)

[1] 0.1586553

Code

# Udio citatelja koji citaju izmedju 90 i 150 sekundi
pnorm(150, mean = 120, sd = 30) - pnorm(90, mean = 120, sd = 30)

[1] 0.6826895

Code

# Z-vrijednost za citatelja koji cita 180 sekundi
(180 - 120) / 30

[1] 2

Za kontinuirane distribucije poput normalne, vjerojatnost se ne pripisuje pojedinačnim točkama već intervalima. Pitanje „kolika je vjerojatnost da čitatelj provede točno 120.0000 sekundi” nema smisla jer je odgovor nula. Međutim, pitanje „kolika je vjerojatnost da čitatelj provede između 110 i 130 sekundi” ima jasan odgovor, i taj odgovor daje površina ispod krivulje između tih dviju točaka.

S razumijevanjem normalne distribucije kao temeljnog alata, moguće je prijeći na pitanje koje je u samom središtu statističkog zaključivanja: što se događa kada se uzimaju uzorci iz populacije i izračunavaju njihovi prosjeci?

18.1.2 Centralni granični teorem

Zamislimo sljedeći misaoni eksperiment. Provodi se istraživanje o zadovoljstvu gledatelja HRT-a. Prvi tjedan anketira se 50 gledatelja i dobije prosječna satisfakcija od 7.2 (na skali 1–10). Sljedeći tjedan ponovo se anketira 50 različitih gledatelja i dobije 7.5. Treći tjedan dobije se 6.9. Ako bi se ovaj postupak ponavljao stotinama puta, što bi se moglo opaziti? Distribucija svih tih prosječnih satisfakcija naziva se uzorkovna distribucija prosjeka (engl. sampling distribution of the mean), i ona ima zadivljujuća svojstva koja objašnjava centralni granični teorem (CGT), jedan od najvažnijih rezultata u teoriji vjerojatnosti (Rice, 2007).

Razmotrimo konkretan primjer. Pretpostavimo da stvarna prosječna satisfakcija svih gledatelja HRT-a (populacijska sredina) iznosi $\mu = 7.0$, sa standardnom devijacijom $\sigma = 2.0$. Ako se uzme uzorak od $N = 50$ gledatelja i izračuna prosječna satisfakcija, gotovo sigurno se neće dobiti točno 7.0. Možda se dobije 7.3, ili 6.8, ili neka druga vrijednost. Nadalje, ponavljanjem eksperimenta s novim uzorkom od 50 ljudi, dobiva se druga vrijednost. Svaki put kada se uzorkuje, dobiva se malo drugačiji prosjek zbog slučajne varijacije u tome koje osobe uđu u uzorak.

Centralni granični teorem kaže sljedeće: bez obzira kakav oblik ima originalna populacijska distribucija, uzorkovna distribucija prosjeka postaje sve normalnija kako se veličina uzorka povećava. Štoviše, CGT daje precizne formule za karakteristike ove distribucije. Ovo je izuzetno moćan rezultat jer omogućuje korištenje normalne distribucije za inferenciju čak i kada izvorna distribucija u populaciji nije normalna. Da bi se ilustrirao CGT, može se zamisliti da je distribucija satisfakcije u populaciji jako asimetrična – možda većina gledatelja daje visoke ocjene, ali postoji rep nezadovoljnih korisnika koji daju niske ocjene. Distribucija pojedinačnih ocjena nije normalna. Međutim, kada se uzorkuje 50 ljudi i izračuna prosjek, taj prosjek „izglađuje” ekstremne vrijednosti. Ako se uzorkovanje ponovi tisuću puta, distribucija tih tisuću prosjeka bit će približno normalna, unatoč asimetriji izvorne distribucije.

Code

set.seed(123)

# Simulacija uzorkovanja
n_uzoraka <- 1000
velicine_uzoraka <- c(5, 30, 100)
pop_sredina <- 7.0
pop_sd <- 2.0

rezultati <- data.frame()

for (n in velicine_uzoraka) {
  prosjeci <- replicate(n_uzoraka, mean(rnorm(n, pop_sredina, pop_sd)))
  rezultati <- rbind(rezultati, data.frame(
    prosjek = prosjeci,
    n = paste("N =", n)
  ))
}

rezultati$n <- factor(rezultati$n, levels = c("N = 5", "N = 30", "N = 100"))

ggplot(rezultati, aes(x = prosjek)) +
  geom_histogram(aes(y = after_stat(density)), bins = 30,
                 fill = "gray60", color = "black") +
  geom_vline(xintercept = pop_sredina, linetype = "dashed", linewidth = 0.8) +
  facet_wrap(~n, scales = "free_y") +
  labs(
    title = "Centralni grani\u010dni teorem: uzorkovna distribucija prosjeka",
    subtitle = "Populacija: \u03bc = 7.0, \u03c3 = 2.0 | Isprekidana linija = populacijski prosjek",
    x = "Prosje\u010dna satisfakcija iz uzorka",
    y = "Gusto\u0107a"
  ) +
  theme(strip.text = element_text(face = "bold"))

Figure 18.2: Demonstracija centralnog graničnog teorema. S porastom veličine uzorka (N), uzorkovna distribucija prosjeka postaje sve uža i sve bliža normalnom obliku. Isprekidana linija označava populacijski prosjek (μ = 7.0).

CGT donosi tri fundamentalna rezultata o uzorkovnoj distribuciji prosjeka. Prvo, sredina uzorkovne distribucije jednaka je populacijskoj sredini. Ako je prava prosječna satisfakcija $\mu = 7.0$, tada je prosječna vrijednost svih mogućih prosječnih satisfakcija iz uzoraka također 7.0. Formalno: $E[\bar{X}] = \mu$. Ovo znači da je prosječna satisfakcija iz uzorka nepristrani procjenitelj populacijske sredine, tj. u prosjeku „pogađa” pravu vrijednost. Drugim riječima, ta formula kaže da ne postoji sustavno odstupanje procjene od stvarne vrijednosti parametra.

Drugo, standardna devijacija uzorkovne distribucije (koja se naziva standardna pogreška) jednaka je:

\[\text{SE} = \frac{\sigma}{\sqrt{N}}\]

Ova formula kaže da se standardna pogreška dobiva dijeljenjem populacijske standardne devijacije ($\sigma$) s korijenom veličine uzorka ($N$). U primjeru s HRT-om, ako je $\sigma = 2.0$ i $N = 50$: $\text{SE} = 2.0 / \sqrt{50} \approx 0.283$. Ova formula ima važne implikacije: standardna pogreška smanjuje se s korijenom veličine uzorka, ne linearno. Da bi se prepolovila standardna pogreška, potrebno je učetverostručiti veličinu uzorka.

Treće, kako veličina uzorka raste, oblik uzorkovne distribucije sve više nalikuje normalnoj distribuciji, neovisno o obliku populacijske distribucije. Čak i ako je originalna distribucija satisfakcije asimetrična ili multimodalna, distribucija prosječnih satisfakcija iz uzoraka veličine 30 ili više bit će približno normalna. U praksi se obično smatra da je $N \geq 30$ dovoljno za približnu normalnost uzorkovne distribucije prosjeka, premda taj prag ovisi o stupnju asimetrije izvorne distribucije.

S razumijevanjem centralnog graničnog teorema, moguće je preciznije razmotriti standardnu pogrešku i njezinu primjenu u kvantificiranju nesigurnosti procjena.

18.1.3 Standardna pogreška

Standardna pogreška (SE) mjeri koliko tipično varira procjena prosjeka od uzorka do uzorka. Ovo se fundamentalno razlikuje od standardne devijacije, koja mjeri koliko tipično variraju pojedinačne opservacije. Razlika je ključna i često zbunjuje studente, stoga je valja detaljno razjasniti.

Zamislimo istraživanje prosječnog broja komentara na člancima nekog novinskog portala. Standardna devijacija broja komentara po članku mogla bi biti $SD = 45$ komentara, što govori da se članci međusobno jako razlikuju po angažmanu koji generiraju. Neki članci dobiju samo 5 komentara, drugi dobiju 150. Međutim, standardna pogreška prosječnog broja komentara iz uzorka od 100 članaka bila bi $SE = 45/\sqrt{100} = 4.5$ komentara, tj. prosjeci iz različitih uzoraka variraju daleko manje od pojedinačnih članaka.

Ova razlika proizlazi iz činjenice da prosjek „izglađuje” individualnu varijabilnost. Kada se prosječi 100 članaka, neki visoko komentirani članci kompenziraju one s malo komentara, rezultirajući prosjekom koji je relativno stabilan. Što je veći uzorak, to je prosjek stabilniji jer ekstremne vrijednosti imaju manje utjecaja kada se prosječe s više „normalnih” vrijednosti. U praksi, populacijska standardna devijacija $\sigma$ rijetko je poznata, pa se koristi procjena iz uzorka $s$ (tj. standardna devijacija uzorka), čime se dobiva procjena standardne pogreške: $\widehat{SE} = s / \sqrt{N}$. U R-u se standardna pogreška može izračunati jednostavnim izrazom sd(x) / sqrt(length(x)), gdje je x numerički vektor podataka.

Code

# Simulirani podaci: broj komentara na 100 clanaka
set.seed(789)
komentari <- rpois(100, lambda = 58)

# Standardna devijacija uzorka
sd(komentari)

[1] 7.565599

Code

# Standardna pogreska
sd(komentari) / sqrt(length(komentari))

[1] 0.7565599

Standardna pogreška ima ključnu ulogu u konstrukciji intervala pouzdanosti. Ako se želi konstruirati 95%-tni interval pouzdanosti za populacijski prosjek, koristi se formula:

\[\bar{X} \pm 1.96 \times \text{SE}\]

Ova formula kaže da se od uzorkovnog prosjeka $\bar{X}$ oduzima i dodaje 1.96 standardnih pogrešaka. Broj 1.96 dolazi iz normalne distribucije i to je z-vrijednost koja ostavlja 2.5% u svakom repu, odnosno 95% distribucije nalazi se unutar ±1.96 standardnih devijacija od sredine. Za primjer s novinskim portalom, ako je opažen prosječno 58 komentara sa SE = 4.5, 95%-tni interval pouzdanosti bio bi: $58 \pm 1.96 \times 4.5 = 58 \pm 8.82$, odnosno od 49.18 do 66.82 komentara.

Interpretacija intervala pouzdanosti zahtijeva pažnju. Pravilna interpretacija glasi: ako bi se uzorkovanje ponovilo mnogo puta i svaki put konstruirao interval pouzdanosti na ovaj način, 95% tih intervala sadržavalo bi pravu populacijsku sredinu. Važno je primijetiti da se ne može reći da postoji 95% vjerojatnosti da se prava sredina nalazi u nekom konkretnom intervalu jer je prava sredina fiksna vrijednost (samo nepoznata), a interval je ili sadržava ili ne sadržava. Vjerojatnost se odnosi na postupak konstrukcije intervala, ne na specifični interval.

Za istraživača masovne komunikacije, intervali pouzdanosti pružaju korisnu informaciju o preciznosti procjene. Interval pouzdanosti od 49 do 67 komentara govori nešto drugačije od intervala od 55 do 61 komentara jer prvi sugerira veliku nesigurnost, dok drugi ukazuje na prilično preciznu procjenu. Širina intervala pouzdanosti izravno ovisi o standardnoj pogrešci, koja pak ovisi o veličini uzorka: veći uzorci daju uže intervale i precizniju procjenu.

Code

set.seed(456)

# Simulacija 20 uzoraka
n_sim <- 20
prava_sredina <- 58
se <- 4.5

uzorkovni_prosjeci <- rnorm(n_sim, prava_sredina, se)
donja_granica <- uzorkovni_prosjeci - 1.96 * se
gornja_granica <- uzorkovni_prosjeci + 1.96 * se
sadrzi_pravu <- (donja_granica <= prava_sredina) & (gornja_granica >= prava_sredina)

df_ci <- data.frame(
  uzorak = 1:n_sim,
  prosjek = uzorkovni_prosjeci,
  donja = donja_granica,
  gornja = gornja_granica,
  sadrzi = sadrzi_pravu
)

ggplot(df_ci, aes(x = uzorak, y = prosjek)) +
  geom_hline(yintercept = prava_sredina, linetype = "dashed", linewidth = 0.8) +
  geom_errorbar(aes(ymin = donja, ymax = gornja,
                    color = sadrzi), width = 0.3, linewidth = 0.6) +
  geom_point(aes(color = sadrzi), size = 2) +
  scale_color_manual(values = c("TRUE" = "black", "FALSE" = "gray50"),
                     labels = c("TRUE" = "Sadr\u017ei \u03bc", "FALSE" = "Ne sadr\u017ei \u03bc")) +
  coord_flip() +
  labs(
    title = "95%-tni intervali pouzdanosti iz 20 uzoraka",
    subtitle = "Isprekidana linija = prava populacijska sredina (\u03bc = 58)",
    x = "Uzorak",
    y = "Prosje\u010dan broj komentara",
    color = ""
  )

Figure 18.3: Ilustracija 95%-tnih intervala pouzdanosti iz 20 ponovljenih uzoraka. Svaki horizontalni segment predstavlja jedan interval pouzdanosti. Isprekidana linija označava pravu populacijsku sredinu (μ = 58). Većina intervala sadržava pravu sredinu, ali pojedini ne, što ilustrira da 95%-tni interval pouzdanosti u 5% slučajeva ne obuhvaća stvarnu vrijednost parametra.

S razumijevanjem kako kvantificirati nesigurnost procjene putem standardne pogreške i intervala pouzdanosti, moguće je prijeći na sljedeći korak: kako donositi odluke o hipotezama na temelju podataka iz uzorka.

18.2 Inferencijalna statistika

18.2.1 Logika testiranja hipoteza

Zamislimo da novinski portal tvrdi da njegovi članci prosječno generiraju 50 komentara. Istraživač koji istražuje angažman korisnika odluči provjeriti ovu tvrdnju, pa nasumično odabere 100 članaka i otkrije da je prosječan broj komentara 58, sa standardnom devijacijom od 25. Treba li se zaključiti da portal potcjenjuje svoj angažman, ili je razlika od 8 komentara jednostavno slučajno odstupanje koje može nastati zbog uzorkovanja? Ovo je tipična situacija za testiranje hipoteza, tj. sistematičan pristup donošenju statističkih odluka koji pruža okvir za razlikovanje između stvarnih efekata i slučajne varijacije (Agresti i Finlay, 2009).

Prije nego što se može testirati bilo što, potrebno je jasno razlikovati dva tipa hipoteza. Istraživačka hipoteza je znanstvena tvrdnja o svijetu, npr. „angažman korisnika portala razlikuje se od službenih procjena” ili „senzacionalni naslovi povećavaju broj klikova”. Ovo su tvrdnje o komunikološkim konstruktima, o ponašanju ljudi, o učinku medijskog sadržaja, o prirodi komunikacijskih fenomena. Međutim, istraživačke hipoteze su često nejasne i teško mjerljive. Što točno znači „podcjenjuje angažman”? Za koliko? U kojim situacijama? Da bi se hipoteza mogla testirati, potrebno ju je prevesti u preciznu matematičku tvrdnju, tj. statističku hipotezu: „prava prosječna vrijednost komentara po članku ($\mu$) razlikuje se od 50”, što se matematički zapisuje kao $\mu \neq 50$. Ključno je razumjeti da statistički test testira statističku hipotezu, ne istraživačku. Ako je studija loše dizajnirana (v. poglavlje 3 o nacrtu istraživanja), može se dobiti statistički značajan rezultat koji ne govori ništa istinito o istraživačkoj hipotezi.

Kada se započinje statistički test, ne kreće se od hipoteze u koju se vjeruje. Umjesto toga, konstruira se nulta hipoteza ($H_0$) koja predstavlja ono što se ne želi biti istina, i zatim se pokušava pokazati da je ona lažna:

\[H_0: \mu = 50\]

Nulta hipoteza tvrdi da portal govori istinu, tj. prosječan broj komentara doista jest 50. Ona predstavlja status quo, tvrdnju da nema efekta, da nema razlike, da nema veze između varijabli. Alternativna hipoteza ($H_1$) predstavlja ono što se sumnja da je istina:

\[H_1: \mu \neq 50\]

Ovaj pristup možda djeluje kontraintuitivno jer se postavlja hipoteza u koju se ne vjeruje. Odgovor leži u logici dokazivanja: lakše je opovrgnuti tvrdnju nego je dokazati. Ako netko tvrdi da „svi labudovi su bijeli”, potreban je samo jedan crni labud da se ta tvrdnja opovrgne. S druge strane, koliko god bijelih labudova bilo opaženo, nikada se ne može biti potpuno siguran da ne postoji crni labud negdje koji nije viđen.

Najbolji način da se razumije logika testiranja hipoteza jest analogija s kaznenim suđenjem. Nulta hipoteza je „optuženik”, istraživač je tužitelj, a statistički test je sudac. Kao i u kaznenom suđenju, postoji presumpcija nevinosti: nulta hipoteza smatra se istinitom sve dok se ne može dokazati „izvan razumne sumnje” da je lažna. Teret dokaza je na istraživaču koji želi odbaciti nultu hipotezu. Pravila su dizajnirana da štite nultu hipotezu jer, ako je ona zapravo istinita, šansa za lažnu osudu garantirano je niska (obično ispod 5%).

18.2.2 Testna statistika i kritična regija

Da bi se proveo test, potrebna je testna statistika, tj. broj koji se računaju iz podataka i koji pomaže razlikovati između nulte i alternativne hipoteze. Potrebno je znati kako se ta statistika ponaša ako je nulta hipoteza istinita. Za primjer s novinskim portalom, standardna pogreška iznosi $SE = 25/\sqrt{100} = 2.5$. Prema nultoj hipotezi, očekuje se da će prosječan broj komentara iz uzorka biti negdje oko 50, s tipičnim odstupanjem od 2.5. Opažena vrijednost od 58 je $(58 - 50) / 2.5 = 3.2$ standardne pogreške iznad očekivane vrijednosti. Drugim riječima, rezultat je 3.2 „koraka” udaljen od onoga što bi se očekivalo pod nultom hipotezom, pri čemu je svaki „korak” velik koliko i tipična varijacija uzorkovnog prosjeka.

Code

mu0 <- 50
se <- 2.5
x_obs <- 58

x <- seq(mu0 - 4*se, mu0 + 4*se, length = 200)
y <- dnorm(x, mean = mu0, sd = se)

df_test <- data.frame(x = x, y = y)

crit_lower <- mu0 - 1.96 * se
crit_upper <- mu0 + 1.96 * se

ggplot(df_test, aes(x = x, y = y)) +
  geom_line(linewidth = 1) +
  geom_area(data = subset(df_test, x <= crit_lower),
            fill = "gray40", alpha = 0.5) +
  geom_area(data = subset(df_test, x >= crit_upper),
            fill = "gray40", alpha = 0.5) +
  geom_vline(xintercept = x_obs, linetype = "dashed", linewidth = 1) +
  geom_vline(xintercept = c(crit_lower, crit_upper), linetype = "dotted") +
  annotate("text", x = x_obs + 1, y = max(y) * 0.7,
           label = "Opa\u017eeno:\n58", hjust = 0, size = 3.5) +
  annotate("text", x = crit_upper + 0.5, y = max(y) * 0.3,
           label = "Kriti\u010dna\nregija", hjust = 0, size = 3) +
  labs(
    title = "Testiranje H\u2080: \u03bc = 50",
    subtitle = "Siva podru\u010dja = kriti\u010dna regija (\u03b1 = 0.05) | Isprekidana linija = opa\u017eena vrijednost",
    x = "Prosje\u010dan broj komentara",
    y = "Gusto\u0107a pod H\u2080"
  )

Figure 18.4: Testiranje hipoteze o prosječnom broju komentara. Siva područja označavaju kritičnu regiju (α = 0.05), tj. raspon vrijednosti u kojima se nulta hipoteza odbacuje. Isprekidana linija prikazuje opaženu vrijednost (58), koja pada u kritičnu regiju, što znači da se nulta hipoteza odbacuje.

Da bi se odgovorilo je li rezultat dovoljno ekstreman, potrebno je definirati kritičnu regiju, tj. skup vrijednosti testne statistike koji navodi na odbacivanje nulte hipoteze. Koristi se razina značajnosti $\alpha$, koja predstavlja maksimalnu stopu pogreške koju je istraživač spreman tolerirati. Konvencija u znanosti je obično $\alpha = 0.05$, što znači da se prihvaća 5% šanse da će se pogrešno odbaciti istinita nulta hipoteza. Za normalnu distribuciju s dvosmjernim testom, kritične vrijednosti su ±1.96 standardnih pogrešaka od sredine.

Opažena vrijednost od 58 komentara pada u kritičnu regiju (58 > 54.9), stoga se nulta hipoteza odbacuje. Zaključuje se da postoje statistički dokazi da prosječan broj komentara nije 50. U R-u se ovakav test provodi funkcijom t.test(), koja automatski izračunava testnu statistiku, p-vrijednost i interval pouzdanosti:

Code

# Simulirani podaci: 100 clanaka s prosjecnim brojem komentara
set.seed(42)
broj_komentara <- rnorm(100, mean = 58, sd = 25)

# Testiranje hipoteze da je populacijski prosjek 50
t.test(broj_komentara, mu = 50)


    One Sample t-test

data:  broj_komentara
t = 3.3851, df = 99, p-value = 0.001021
alternative hypothesis: true mean is not equal to 50
95 percent confidence interval:
 53.64718 63.97857
sample estimates:
mean of x 
 58.81287

Iz rezultata funkcije t.test() mogu se iščitati svi ključni elementi statističkog testa: testna statistika (t), stupnjevi slobode (df), p-vrijednost, 95%-tni interval pouzdanosti i procjena prosjeka uzorka.

S razumijevanjem mehanizma testiranja, valja se pobliže pozabaviti p-vrijednošću, tj. mjerom koja kvantificira snagu dokaza protiv nulte hipoteze.

18.2.3 P-vrijednost

P-vrijednost može se definirati na dva komplementarna načina. Prema prvom načinu (Neymanov pristup), p-vrijednost je najmanji nivo značajnosti $\alpha$ koji bi trebalo biti spremno tolerirati da bi se mogla odbaciti nulta hipoteza. Ako je p-vrijednost 0.03, moguće je odbaciti $H_0$ ako se tolerira 3% stopa pogreške, ali ne može ju se odbaciti ako se zahtijeva 1% stopa pogreške.

Prema drugom načinu (Fisherov pristup), p-vrijednost je vjerojatnost dobivanja rezultata jednako ili više ekstremnih od onih koje su opaženi, pod pretpostavkom da je nulta hipoteza istinita. Ovaj pristup tretira p-vrijednost kao mjeru „iznenađenja”: što je p-vrijednost niža, to su podaci „iznenađujući” ako je nulta hipoteza istinita.

Za primjer s novinskim portalom sa z-vrijednošću od 3.2, p-vrijednost iznosi približno 0.0014 (ili 0.14%). Interpretacija glasi: ako bi prosječan broj komentara zaista bio 50, tada bi se u samo 0.14% slučajeva dobio prosjek koji je toliko ili više udaljen od 50 kao opaženi prosjek od 58. Budući da je ova vjerojatnost ispod uobičajenog praga od 5%, nulta se hipoteza odbacuje. U R-u se p-vrijednost za z-test može izračunati pomoću funkcije pnorm():

Code

# Z-vrijednost
z <- (58 - 50) / 2.5

# Dvosmjerna p-vrijednost
p_vrijednost <- 2 * (1 - pnorm(abs(z)))
p_vrijednost

[1] 0.001374276

P-vrijednost je možda najpogrešnije shvaćen koncept u statistici. Ovo nije pretjerivanje jer brojna istraživanja pokazuju da čak i profesionalni istraživači često pogrešno interpretiraju p-vrijednosti (Greenland i sur., 2016). P-vrijednost nije vjerojatnost da je nulta hipoteza istinita jer frekvenstički pristup statistici ne dopušta pripisivanje vjerojatnosti hipotezama, tj. one su ili istinite ili nisu. P-vrijednost nije vjerojatnost da su rezultati nastali slučajno jer izračun pretpostavlja da je $H_0$ istinita, a ne mjeri vjerojatnost te pretpostavke. P-vrijednost nije vjerojatnost pogreške pri odbacivanju $H_0$ jer ta vjerojatnost bila bi $\alpha$, ne p-vrijednost. P-vrijednost nije mjera veličine efekta ili praktične važnosti jer može biti vrlo mala za trivijalne efekte ako je uzorak dovoljno velik.

Pravilna interpretacija p-vrijednosti može se izraziti na nekoliko načina: „Ako bi nulta hipoteza bila istinita, podaci kao ovi ili ekstremniji javljali bi se u 0.14% slučajeva”, ili „Potrebno je biti spreman tolerirati stopu pogreške tipa I od najmanje 0.14% da bi se odbacila $H_0$“, ili jednostavno „Podaci pružaju jake dokaze protiv nulte hipoteze.”

Table 18.1: Standardne konvencije za izvještavanje p-vrijednosti. Zvjezdice se koriste kao skraćeni zapis u tablicama rezultata.

Notacija	Značenje	Razina značajnosti
$p > 0.05$ ili n.s.	Nije značajno	Zadržava se $H_0$
$p < 0.05$ (*)	Značajno na razini 5%	Odbacuje se $H_0$
$p < 0.01$ (**)	Značajno na razini 1%	Odbacuje se $H_0$
$p < 0.001$ (***)	Vrlo značajno	Odbacuje se $H_0$

Ključno je razumjeti da statistički značajan ne znači važan ili praktično relevantan. Ove dvije stvari su potpuno različite i njihovo miješanje vodi do ozbiljnih pogrešaka u interpretaciji rezultata. S dovoljno velikim uzorkom, čak i minijaturni efekti postaju statistički značajni. Zamislimo analizu milijun članaka u kojoj se otkrije da prosječan broj komentara nije 50.0 već 50.2. P-vrijednost može biti $p < 0.001$, ali je razlika od 0.2 komentara praktično beznačajna jer se nijedna urednička odluka ne bi trebala temeljiti na tako trivijalnoj razlici.

Praktična značajnost ocjenjuje se kroz veličinu efekta i kontekst. Razlika između 50 i 58 komentara može biti praktično važna jer predstavlja 16% povećanje angažmana. Veličina efekta mjeri se standardiziranim mjerama poput Cohenovog d (za razlike između skupina) ili Pearsonovog r (za korelacije). Cohen (1988) je predložio konvencionalne pragove: mali efekt ($d \approx 0.2$), srednji efekt ($d \approx 0.5$) i veliki efekt ($d \approx 0.8$). Međutim, ovi pragovi su orijentacijski jer što je „velik” efekt ovisi o kontekstu istraživanja.

Za istraživača masovne komunikacije, razlikovanje statističke i praktične značajnosti ima izravne implikacije. Studija može pokazati da novi format naslova „statistički značajno” povećava broj klikova s $p < 0.001$, ali ako je povećanje samo 0.5%, vjerojatno nije vrijedno implementacije. S druge strane, studija s $p = 0.06$ koja pokazuje povećanje od 15% možda zaslužuje daljnje istraživanje, čak i ako nije prešla konvencionalni prag značajnosti.

S razumijevanjem što p-vrijednost jest i što nije, potrebno je razmotriti vrste pogrešaka koje se mogu pojaviti u statističkom zaključivanju.

18.2.4 Vrste pogrešaka

Statistički testovi nisu savršeni. Čak i kada se sve radi ispravno, tj. kada se pravilno provede uzorkovanje, ispravno izračuna testna statistika i korektno interpretiraju rezultati, postoji mogućnost pogreške. Podaci su bučni, a ponekad uzorak jednostavno nije reprezentativan. Razumijevanje vrsta pogrešaka koje se mogu pojaviti, i načina kako ih kontrolirati, ključno je za kompetentno korištenje statističkih testova. Postoje dva tipa pogrešaka.

Pogreška tipa I (lažno pozitivan rezultat) nastaje kada se odbaci istinita nulta hipoteza. U kontekstu primjera s novinskim portalom, to bi značilo zaključiti da prosječan broj komentara nije 50 kada zapravo jest. U analogiji s kaznenim suđenjem, to odgovara osudi nevinog čovjeka. Ova pogreška je ozbiljna jer navodi na vjerovanje u efekt koji zapravo ne postoji, što može voditi do pogrešnih teorijskih zaključaka, beskorisnih praktičnih intervencija i gubitka resursa na istraživanje lažnih tragova.

Vjerojatnost pogreške tipa I označava se s $\alpha$ i ona je upravo razina značajnosti testa. Kada se postavi $\alpha = 0.05$, eksplicitno se kaže: prihvaća se da će se u 5% slučajeva pogrešno odbaciti istinita nulta hipoteza. Ovo je razlog zašto su konvencionalni pragovi (0.05, 0.01, 0.001) tako važni jer predstavljaju društveno dogovorene nivoe prihvatljivog rizika. Valja napomenuti da je $\alpha$ razina koja se bira prije provedbe testa. Ako je potreban konzervativniji pristup, može se postaviti $\alpha = 0.01$ ili čak $\alpha = 0.001$.

Pogreška tipa II (lažno negativan rezultat) nastaje kada se zadrži lažna nulta hipoteza. To bi značilo zaključiti da prosječan broj komentara jest 50 kada zapravo nije. U analogiji s kaznenim suđenjem, to odgovara oslobađanju krivca. Ova pogreška je također ozbiljna jer sprječava otkrivanje stvarnih efekata, što može voditi do propuštenih znanstvenih otkrića i nepravednog odbacivanja potencijalno korisnih teorija.

Vjerojatnost pogreške tipa II označava se s $\beta$. Za razliku od pogreške tipa I, ne može se direktno postaviti $\beta$ na određenu vrijednost. Umjesto toga, $\beta$ ovisi o nekoliko faktora. Kao prvo, o veličini stvarnog efekta: što je stvarni efekt veći, to ga je lakše detektirati i manja je vjerojatnost da će biti propušten. Ako je prava prosječna vrijednost komentara 80 umjesto 58, bit će puno lakše odbaciti nultu hipotezu da je 50. Kao drugo, o veličini uzorka: veći uzorak znači manju standardnu pogrešku, što omogućuje preciznije procjene i lakše otkrivanje efekata. Kao treće, o varijabilnosti podataka: ako su podaci vrlo varijabilni, teže je razlikovati signal od šuma. I kao četvrto, o razini $\alpha$: stroža $\alpha$ (npr. 0.01 umjesto 0.05) povećava $\beta$ jer, ako se postavljen stroži kriterij za pogrešku tipa I, automatski se postaje tolerantniji prema pogrešci tipa II.

Code

mu0 <- 50
mu1 <- 55
se <- 2.5
alpha <- 0.05

crit_upper <- mu0 + qnorm(1 - alpha/2) * se

x <- seq(40, 65, length = 300)
y_h0 <- dnorm(x, mean = mu0, sd = se)
y_h1 <- dnorm(x, mean = mu1, sd = se)

ggplot() +
  geom_line(data = data.frame(x = x, y = y_h0),
            aes(x = x, y = y), linewidth = 1) +
  geom_line(data = data.frame(x = x, y = y_h1),
            aes(x = x, y = y), linewidth = 1, linetype = "dashed") +
  geom_area(data = data.frame(x = x[x >= crit_upper], y = y_h0[x >= crit_upper]),
            aes(x = x, y = y), fill = "gray30", alpha = 0.4) +
  geom_area(data = data.frame(x = x[x < crit_upper], y = y_h1[x < crit_upper]),
            aes(x = x, y = y), fill = "gray70", alpha = 0.4) +
  geom_vline(xintercept = crit_upper, linetype = "dotted") +
  annotate("text", x = 57, y = 0.12, label = "\u03b1 (Tip I)", size = 3.5) +
  annotate("text", x = 48, y = 0.08, label = "\u03b2 (Tip II)", size = 3.5) +
  annotate("text", x = 50, y = 0.17, label = "H\u2080", size = 4) +
  annotate("text", x = 55, y = 0.17, label = "H\u2081", size = 4) +
  labs(
    title = "Pogre\u0161ke tipa I i II",
    subtitle = "Puna linija = distribucija pod H\u2080 | Isprekidana = distribucija pod H\u2081",
    x = "Prosje\u010dan broj komentara",
    y = "Gusto\u0107a"
  )

Figure 18.5: Ilustracija pogrešaka tipa I i II. Puna linija prikazuje distribuciju testne statistike pod nultom hipotezom (H₀: μ = 50), a isprekidana linija distribuciju pod alternativnom hipotezom (H₁: μ = 55). Tamnije sivo područje desno od kritične vrijednosti pod H₀ predstavlja pogrešku tipa I (α), dok svjetlije sivo područje lijevo od kritične vrijednosti pod H₁ predstavlja pogrešku tipa II (β).

Razumijevanje vrsta pogrešaka vodi prema pitanju koliko je test „osjetljiv” na stvarne efekte, tj. prema konceptu moći testa.

18.2.5 Moć testa

Komplementarno pojmu pogreške tipa II, moć testa definira se kao: $\text{Moć} = 1 - \beta$. Ova formula kaže da je moć vjerojatnost da će se ispravno odbaciti lažna nulta hipoteza, tj. vjerojatnost da će test „uhvatiti” stvarni efekt kada on doista postoji. „Moćan” test je onaj koji ima veliku vjerojatnost detektirati efekt, a moć se može razumjeti kao osjetljivost testa.

Moć testa ovisi o istim faktorima kao i $\beta$, ali u suprotnom smjeru: veći stvarni efekt dovodi do veće moći jer veće efekte lakše je detektirati, veći uzorak dovodi do veće moći jer preciznije procjene omogućuju finiju diskriminaciju, manja varijabilnost dovodi do veće moći jer manje šuma olakšava otkrivanje signala, a blaža $\alpha$ (npr. 0.05 umjesto 0.01) dovodi do veće moći jer manje strogi kriteriji olakšavaju odbacivanje $H_0$.

Konvencionalno, istraživači nastoje dizajnirati studije koje imaju moć od najmanje 0.80 (80%). To znači da, ako postoji pravi efekt, postoji 80% šanse da će biti detektiran. Ovo nije proizvoljan broj jer odražava kompromis između želje da se otkriju stvarni efekti i praktičnih ograničenja veličine uzorka i resursa (Cohen, 1988).

Prije provedbe studije, istraživači mogu koristiti analizu moći da odrede koliki uzorak im je potreban za postizanje željene moći. Analiza moći zahtijeva specifikaciju očekivane veličine efekta, željene razine moći (obično 0.80) i razine značajnosti (obično 0.05). Na temelju ovih parametara, može se izračunati minimalna potrebna veličina uzorka. U R-u se analiza moći provodi pomoću funkcije power.t.test():

Code

# Koliki uzorak treba za detekciju srednjeg efekta (d = 0.5)?
power.t.test(
  delta = 0.5,     # ocekivana velicina efekta (Cohenov d)
  sd = 1,           # standardna devijacija
  sig.level = 0.05, # razina znacajnosti
  power = 0.80,     # zeljena moc
  type = "one.sample"
)


     One-sample t test power calculation 

              n = 33.3672
          delta = 0.5
             sd = 1
      sig.level = 0.05
          power = 0.8
    alternative = two.sided

Analiza moći ima značajne praktične implikacije za planiranje istraživanja. Studija s nedovoljnom moći, recimo samo 40%, zapravo je gubitak resursa. Čak i ako postoji pravi efekt, vjerojatnije je da neće biti otkriven nego da hoće. Rezultat takve studije, ako ne pronađe značajan efekt, ne pruža nikakvu korisnu informaciju jer se ne zna je li efekt zaista ne postoji ili jednostavno nije bilo dovoljno moći da se detektira. S druge strane, studija s prekomjerno velikom moći, recimo 99%, može biti neefikasna jer koristi više resursa nego što je potrebno. Optimalno planiranje balansira između ovih ekstrema.

Code

velicina_efekta <- 0.5
alpha <- 0.05

n_vrijednosti <- seq(10, 150, by = 5)

moc_vrijednosti <- sapply(n_vrijednosti, function(n) {
  se <- 1 / sqrt(n)
  crit <- qnorm(1 - alpha/2)
  z_efekt <- velicina_efekta / se
  1 - pnorm(crit - z_efekt) + pnorm(-crit - z_efekt)
})

df_moc <- data.frame(n = n_vrijednosti, moc = moc_vrijednosti)

n_80 <- n_vrijednosti[which.min(abs(moc_vrijednosti - 0.80))]

ggplot(df_moc, aes(x = n, y = moc)) +
  geom_line(linewidth = 1) +
  geom_hline(yintercept = 0.80, linetype = "dashed") +
  geom_vline(xintercept = n_80, linetype = "dotted") +
  annotate("text", x = n_80 + 5, y = 0.5,
           label = paste("N \u2248", n_80), hjust = 0, size = 3.5) +
  annotate("text", x = 140, y = 0.82, label = "80% mo\u0107", size = 3.5) +
  scale_y_continuous(labels = scales::percent) +
  labs(
    title = "Mo\u0107 testa kao funkcija veli\u010dine uzorka",
    subtitle = "Veli\u010dina efekta d = 0.5 (srednji efekt) | \u03b1 = 0.05",
    x = "Veli\u010dina uzorka (N)",
    y = "Mo\u0107 (1 - \u03b2)"
  )

Figure 18.6: Moć testa kao funkcija veličine uzorka za srednji efekt (d = 0.5) uz razinu značajnosti α = 0.05. Horizontalna isprekidana linija označava konvencionalnu željenu moć od 80%, a okomita točkasta linija označava odgovarajuću minimalnu veličinu uzorka.

Svi mogući ishodi testiranja hipoteza mogu se sažeti u jednu tablicu koja prikazuje odnose između odluka i stvarnog stanja u populaciji.

Table 18.2: Ishodi testiranja hipoteza. Dva ispravna ishoda nalaze se na dijagonali (zadržavanje istinite $H_0$ i odbacivanje lažne $H_0$), dok se dvije vrste pogrešaka nalaze izvan dijagonale.

	$H_0$ je zapravo istinita	$H_0$ je zapravo lažna
Zadržava se $H_0$	Ispravna odluka ($1-\alpha$)	Pogreška tipa II ($\beta$)
Odbacuje se $H_0$	Pogreška tipa I ($\alpha$)	Ispravna odluka (Moć = $1-\beta$)

Ova tablica pokazuje fundamentalnu napetost u testiranju hipoteza: nije moguće istovremeno minimizirati obje vrste pogrešaka uz fiksnu veličinu uzorka. Ako se smanji $\alpha$ (postane se strožiji), automatski se povećava $\beta$ (postaje teže odbaciti lažnu $H_0$). Jedini način da se smanje obje jest povećati veličinu uzorka. Ova napetost odražava fundamentalnu nesigurnost statističkog zaključivanja jer nikada nije moguće biti potpuno siguran u zaključke.

Praktične implikacije ove tablice su značajne za planiranje istraživanja. Prije provedbe studije, istraživač mora donijeti eksplicitnu odluku o tome koliki rizik pogreške tipa I je spreman tolerirati (odabir $\alpha$) i koliku moć želi postići (što određuje potrebnu veličinu uzorka). Ove odluke trebaju biti donesene unaprijed, prije prikupljanja podataka, kako bi se izbjeglo prilagođavanje analize rezultatima, tj. praksa poznata kao p-hacking ili „lovljenje značajnosti”.

Razumijevanje vrsta pogrešaka također pomaže u interpretaciji literature. Kada se čita da studija „nije pronašla značajnu razliku”, potrebno je zapitati se kakvu je moć imala ta studija. Ako je moć bila niska (npr. 40%), neuspjeh da se pronađe efekt ne govori mnogo jer možda efekt postoji, ali studija jednostavno nije bila dovoljno osjetljiva da ga detektira. S druge strane, studija s visokom moći (npr. 90%) koja ne pronađe efekt pruža mnogo jače dokaze da efekt doista ne postoji ili je vrlo mali.

18.3 Cjelovit primjer: od istraživačkog pitanja do zaključka

Da bi se demonstrirala primjena svih obrađenih koncepata u jednom koherentnom istraživačkom scenariju, razmotrit će se sljedeći primjer. Istraživačica želi ispitati razlikuje li se prosječno vrijeme provedeno na člancima s vijestima o zdravlju od nacionalnog prosjeka koji iznosi 90 sekundi.

Code

# Korak 1: Prikupljanje podataka
# Simulirani podaci: vrijeme citanja 80 clanaka o zdravlju (u sekundama)
set.seed(2024)
vrijeme_citanja <- rnorm(80, mean = 102, sd = 35)

# Korak 2: Deskriptivna statistika
prosjek_uzorka <- mean(vrijeme_citanja)
sd_uzorka <- sd(vrijeme_citanja)
n <- length(vrijeme_citanja)
se <- sd_uzorka / sqrt(n)

cat("Prosjek uzorka:", round(prosjek_uzorka, 2), "sekundi\n")

Prosjek uzorka: 100.15 sekundi

Code

cat("Standardna devijacija:", round(sd_uzorka, 2), "sekundi\n")

Standardna devijacija: 36.13 sekundi

Code

cat("Velicina uzorka:", n, "\n")

Velicina uzorka: 80

Code

cat("Standardna pogreska:", round(se, 2), "sekundi\n")

Standardna pogreska: 4.04 sekundi

Code

# Korak 3: 95%-tni interval pouzdanosti
donja <- prosjek_uzorka - 1.96 * se
gornja <- prosjek_uzorka + 1.96 * se
cat("\n95%-tni interval pouzdanosti: [", round(donja, 2), ",", round(gornja, 2), "]\n")


95%-tni interval pouzdanosti: [ 92.23 , 108.07 ]

Code

# Korak 4: Testiranje hipoteze H0: mu = 90
rezultat_testa <- t.test(vrijeme_citanja, mu = 90)
print(rezultat_testa)


    One Sample t-test

data:  vrijeme_citanja
t = 2.5128, df = 79, p-value = 0.01401
alternative hypothesis: true mean is not equal to 90
95 percent confidence interval:
  92.10972 108.18907
sample estimates:
mean of x 
 100.1494

Code

# Korak 5: Velicina efekta (Cohenov d)
cohenov_d <- (prosjek_uzorka - 90) / sd_uzorka
cat("\nCohenov d:", round(cohenov_d, 3), "\n")


Cohenov d: 0.281

Code

# Korak 6: Analiza moci (retrospektivna)
moc <- power.t.test(
  n = 80,
  delta = prosjek_uzorka - 90,
  sd = sd_uzorka,
  sig.level = 0.05,
  type = "one.sample"
)
cat("Moc testa:", round(moc$power, 3), "\n")

Moc testa: 0.699

Ovaj primjer ilustrira cjelokupan tijek statističkog zaključivanja. U prvom koraku prikupljaju se podaci. U drugom koraku izračunavaju se osnovne deskriptivne mjere (prosjek, standardna devijacija, standardna pogreška). U trećem koraku konstruira se interval pouzdanosti koji kvantificira nesigurnost procjene. U četvrtom koraku provodi se test hipoteze funkcijom t.test() koja automatski izračunava testnu statistiku, stupnjeve slobode i p-vrijednost. U petom koraku izračunava se veličina efekta (Cohenov d) kako bi se procijenila praktična značajnost rezultata. U šestom koraku provodi se analiza moći funkcijom power.t.test() kako bi se utvrdilo je li studija imala dovoljnu osjetljivost za detekciju opaženog efekta. Svaki od ovih koraka odgovara jednom od koncepata obrađenih u ovom poglavlju.

18.4 Usporedba ključnih koncepata

Table 18.3: Usporedni pregled ključnih koncepata statističkog zaključivanja s pripadajućim formulama i R funkcijama za praktičnu provedbu. Tablica služi kao referentni vodič za primjenu ovih koncepata u istraživačkoj praksi.

Koncept	Definicija	Formula ili oznaka	Praktična primjena	R funkcija
Normalna distribucija	Kontinuirana distribucija određena sredinom i standardnom devijacijom	$X \sim N(\mu, \sigma)$	Modeliranje varijabli poput gledanosti, vremena čitanja	`dnorm()`, `pnorm()`, `qnorm()`, `rnorm()`
Standardna pogreška	Standardna devijacija uzorkovne distribucije prosjeka	$SE = \sigma / \sqrt{N}$	Procjena preciznosti uzorkovnog prosjeka	`sd(x) / sqrt(length(x))`
Interval pouzdanosti	Raspon koji s određenom vjerojatnošću obuhvaća populacijski parametar	$\bar{X} \pm 1.96 \times SE$	Izvještavanje o nesigurnosti procjene	`t.test(x)$conf.int`
P-vrijednost	Vjerojatnost podataka ekstremnih kao opaženi, pod $H_0$	$p$	Odluka o odbacivanju $H_0$	`t.test(x, mu = ...)$p.value`
Pogreška tipa I	Odbacivanje istinite $H_0$	$\alpha$	Odabir razine značajnosti	-
Pogreška tipa II	Zadržavanje lažne $H_0$	$\beta$	Procjena rizika propuštanja efekta	-
Moć testa	Vjerojatnost ispravnog odbacivanja lažne $H_0$	$1 - \beta$	Planiranje veličine uzorka	`power.t.test()`

Ova tablica sistematizira sve koncepte obrađene u poglavlju i za svaki navodi definiciju, formalnu oznaku, tipičnu primjenu u istraživanju masovne komunikacije te odgovarajuću R funkciju. Valja primijetiti da su svi koncepti međusobno povezani: normalna distribucija i centralni granični teorem opravdavaju korištenje standardne pogreške, koja je temelj za konstrukciju intervala pouzdanosti i provedbu testiranja hipoteza, a razumijevanje pogrešaka i moći testa omogućuje kvalitetno planiranje istraživanja.

18.5 Sažetak poglavlja

Statistički zaključak omogućuje prelazak od konkretnih podataka iz uzorka do općenitih zaključaka o populaciji. Ovladavanje konceptima obrađenim u ovom poglavlju nužan je preduvjet za kompetentnu primjenu statističkih testova u istraživanju masovne komunikacije.

Normalna distribucija je teorijska distribucija određena sredinom ($\mu$) i standardnom devijacijom ($\sigma$). Njezin karakterističan zvonast oblik pojavljuje se u prirodi i društvenim znanostima jer mnoge varijable nastaju kao zbroj velikog broja malih, nezavisnih utjecaja. Empirijsko pravilo govori da 68% podataka pada unutar ±1σ, 95% unutar ±2σ i 99.7% unutar ±3σ od sredine. Za kontinuirane distribucije, vjerojatnosti se računaju kao površine ispod krivulje. Standardna normalna distribucija ($\mu = 0$, $\sigma = 1$) služi kao referentna točka za sve normalne distribucije putem z-transformacije.

Centralni granični teorem objašnjava zašto prosjeci uzoraka imaju predvidljivo ponašanje, neovisno o obliku izvorne populacijske distribucije: uzorkovna distribucija prosjeka postaje normalna kako $N$ raste (obično je $N \geq 30$ dovoljno), sredina uzorkovne distribucije jednaka je populacijskoj sredini ($E[\bar{X}] = \mu$), a standardna pogreška iznosi $SE = \sigma/\sqrt{N}$. CGT je matematički temelj koji opravdava korištenje normalne distribucije u inferencijalnoj statistici.

Standardna pogreška mjeri nesigurnost procjene prosjeka, tj. koliko tipično varira procjena od uzorka do uzorka. Fundamentalno se razlikuje od standardne devijacije koja mjeri varijabilnost pojedinačnih opservacija. Koristi se za konstrukciju intervala pouzdanosti: $\bar{X} \pm 1.96 \times SE$ za 95%-tni interval. Pravilna interpretacija intervala pouzdanosti odnosi se na postupak konstrukcije intervala, ne na specifični interval: 95% svih tako konstruiranih intervala sadržavat će pravu populacijsku sredinu.

Testiranje hipoteza je sistematičan okvir za statističke odluke koji slijedi logiku sličnu kaznenom suđenju. Nulta hipoteza ($H_0$) predstavlja status quo i presumira se istinitom dok se ne dokaže suprotno, a alternativna hipoteza ($H_1$) predstavlja tvrdnju o efektu, razlici ili vezi. Testna statistika mjeri odstupanje podataka od očekivanja pod $H_0$, a kritična regija definira vrijednosti koje vode do odbacivanja $H_0$. P-vrijednost je vjerojatnost dobivanja podataka ekstremnih kao opaženi ili ekstremnijih, pod pretpostavkom da je $H_0$ istinita. Statistička značajnost ne implicira praktičnu važnost jer se veličina efekta i kontekst moraju razmatrati odvojeno.

Pogreške tipa I i II su neizbježne u statističkom zaključivanju. Pogreška tipa I ($\alpha$) nastaje odbacivanjem istinite $H_0$, a pogreška tipa II ($\beta$) zadržavanjem lažne $H_0$. Moć testa ($1-\beta$) je vjerojatnost ispravnog odbacivanja lažne $H_0$, a cilj je da ona bude najmanje 80%. Nije moguće istovremeno minimizirati obje vrste pogrešaka uz fiksnu veličinu uzorka, pa je jedini način smanjivanja obiju povećanje veličine uzorka. Pri izvještavanju rezultata potrebno je navesti p-vrijednost, veličinu efekta i interval pouzdanosti, a analiza moći treba biti standardni dio planiranja istraživanja.

U sljedećem poglavlju (poglavlje 10) prikazat će se konkretni statistički testovi koji se temelje na ovdje obrađenim principima: t-test za usporedbu prosjeka, ANOVA za usporedbu više skupina, korelacijska analiza, hi-kvadrat test za kategorijalne varijable te regresijska analiza. Svaki od tih testova primjenjuje logiku testiranja hipoteza, p-vrijednosti i moći testa na specifične istraživačke situacije u komunikologiji.

--- title: "Osnove statističkog zaključivanja" --- ```{r} #| label: setup #| include: false library(ggplot2) library(dplyr) theme_bw_custom <- theme_bw(base_size = 12) + theme( panel.grid.minor = element_blank(), plot.title = element_text(hjust = 0.5, face = "bold", size = 13), plot.subtitle = element_text(hjust = 0.5, size = 10, color = "gray30"), axis.title = element_text(size = 11), legend.position = "bottom" ) theme_set(theme_bw_custom) set.seed(42) ``` # Osnove statističkog zaključivanja Zamislimo istraživačicu koja provodi anketu o povjerenju u medije među 500 nasumično odabranih hrvatskih građana. Prosječna ocjena povjerenja u njezinom uzorku iznosi 5.2 na skali od 1 do 10. Istraživačica želi na temelju tog podatka zaključiti nešto o cijeloj populaciji hrvatskih građana, ali odmah se suočava s nizom pitanja. Je li 5.2 dovoljno blizu pravoj prosječnoj ocjeni u cijeloj populaciji? Koliko bi procjena mogla odstupati od stvarne vrijednosti? I ako HRT tvrdi da je prosječno povjerenje u njihov program 6.0, može li se na temelju prikupljenih podataka zaključiti da ta tvrdnja ne odgovara stvarnosti? Odgovori na ova pitanja zahtijevaju alate koji omogućuju prelazak od konkretnih podataka iz uzorka prema općenitim zaključcima o populaciji, tj. alate **statističkog zaključivanja**. Istraživač medija rijetko ima priliku analizirati cijelu populaciju koja ga zanima. Kada se istražuje percepcija kredibiliteta vijesti, nije moguće anketirati svih četiri milijuna odraslih osoba u Hrvatskoj. Umjesto toga, prikuplja se **uzorak** od, primjerice, 500 ili 1000 ispitanika, te se na temelju tog uzorka izvode zaključci o cijeloj **populaciji**. Upravo ta tranzicija od konkretnih podataka prema općenitim zaključcima predstavlja srž **inferencijalne statistike**, tj. grane statistike koja se bavi izvođenjem zaključaka o populaciji na temelju uzorka. Za razliku od deskriptivne statistike, koja samo opisuje podatke prikupljene u uzorku (v. poglavlje 8), inferencijalna statistika omogućuje generalizaciju, tj. prelazak od specifičnog prema općenitom. Statistička inferencija temelji se na ideji da, iako nikada neće biti poznata točna vrijednost populacijskog parametra (npr. prava prosječna gledanost svih televizijskih programa), moguće je kvantificirati nesigurnost procjene i donositi racionalne odluke unatoč toj nesigurnosti. Svaki put kada se čita izvještaj o istraživanju javnog mnijenja, anketi o medijskim navikama ili studiji o učincima medijskih poruka, rezultati su dobiveni iz uzoraka. Pitanja poput „Je li porast nepovjerenja u medije statistički značajan?" ili „Postoji li stvarna razlika u gledanosti između televizijskih kuća?" zahtijevaju poznavanje principa koji se obrađuju u ovom poglavlju. U kontekstu istraživanja masovne komunikacije, razumijevanje statističkog zaključivanja stoga ima izuzetnu praktičnu važnost. Poglavlje je organizirano u dva veća odjeljka. U prvom se obrađuje put od uzorka do populacije, pri čemu se najprije objašnjava normalna distribucija kao teorijski temelj, zatim centralni granični teorem koji opravdava korištenje normalne distribucije u inferencijalnoj statistici, te standardna pogreška i intervali pouzdanosti kao mjere nesigurnosti procjene. Drugi odjeljak posvećen je inferencijalnoj statistici u užem smislu, gdje se razrađuje logika testiranja hipoteza, pojam testne statistike i kritične regije, interpretacija p-vrijednosti, vrste pogrešaka u statističkom zaključivanju te moć testa. Poglavlje završava cjelovitim primjerom koji povezuje sve obrađene koncepte u jedinstven istraživački scenarij, čime se demonstrira praktična primjena statističkog zaključivanja u istraživanju masovne komunikacije. ## Od uzorka do populacije ### Normalna distribucija Kada se crta histogram dnevne gledanosti televizijskih vijesti, vremena provedenog na društvenim mrežama ili ocjena kvalitete članaka, često se primjećuje da distribucija ima karakterističan oblik: podaci se grupiraju oko srednje vrijednosti, s postepenim opadanjem prema ekstremima s obje strane. Ovaj obrazac toliko se često pojavljuje u prirodi i društvenim znanostima da dobiva poseban status u statistici. Naziva se **normalna distribucija** ili „zvonasta krivulja" (engl. *bell curve*), i predstavlja najvažniju teorijsku distribuciju u statistici. Razlog česte pojavnosti normalne distribucije leži u činjenici da mnoge varijable koje se mjere nastaju kao zbroj velikog broja malih, nezavisnih utjecaja. Primjerice, vrijeme koje čitatelj provede na članku ovisi o brojnim faktorima: interesu za temu, raspoloživom vremenu, duljini članka, kvaliteti pisanja, prisutnosti distraktora i tako dalje. Kada mnogo takvih malih faktora doprinosi konačnoj vrijednosti, rezultirajuća distribucija tendira biti normalna, tj. fenomen koji formalizira centralni granični teorem, o čemu će biti riječi u sljedećem potpoglavlju. Normalna distribucija je **kontinuirana** distribucija, što znači da može poprimiti bilo koju vrijednost unutar svog raspona, ne samo diskretne brojeve. Za razliku od diskretnih distribucija gdje je moguće dobiti točno 3 ili 4 uspjeha (ali ne 3.5), varijable poput vremena čitanja ili gledanosti mogu poprimiti bilo koju vrijednost. Normalna distribucija potpuno je određena s dva parametra: **sredinom** $\mu$ (čita se „mi") i **standardnom devijacijom** $\sigma$ (čita se „sigma"). Sredina određuje gdje je distribucija centrirana na brojčanoj osi, dok standardna devijacija određuje koliko je distribucija „raširena". Drugim riječima, sredina nam govori o „tipičnoj" vrijednosti, dok nam standardna devijacija kaže koliko se vrijednosti tipično razlikuju od te sredine. Matematičku notaciju za normalnu distribuciju zapisuje se ovako: $X \sim \text{Normal}(\mu, \sigma)$, što se čita „varijabla X slijedi normalnu distribuciju sa sredinom $\mu$ i standardnom devijacijom $\sigma$". Ako se pretpostavi da prosječno vrijeme čitanja članaka na nekom novinskom portalu slijedi normalnu distribuciju sa sredinom od 120 sekundi i standardnom devijacijom od 30 sekundi, zapis bi glasio: $X \sim \text{Normal}(120, 30)$. Ova notacija kompaktno sažima sve što je potrebno znati o distribuciji varijable. Poseban slučaj normalne distribucije je **standardna normalna distribucija** s $\mu = 0$ i $\sigma = 1$. Bilo koja normalna distribucija može se transformirati u standardnu normalnu pomoću **z-transformacije**: $$z = \frac{X - \mu}{\sigma}$$ Ova formula kaže da se od svake opažene vrijednosti $X$ oduzme sredina distribucije $\mu$, a rezultat se podijeli sa standardnom devijacijom $\sigma$. Time se dobiva z-vrijednost koja govori koliko je standardnih devijacija neka opservacija udaljena od sredine. Primjerice, ako čitatelj provede 180 sekundi na članku (uz $\mu = 120$ i $\sigma = 30$), njegova z-vrijednost iznosi $(180 - 120)/30 = 2.0$, što znači da je proveo točno dvije standardne devijacije iznad prosjeka. Zahvaljujući z-transformaciji, moguće je koristiti iste tablice vjerojatnosti neovisno o izvornim jedinicama mjerenja. ```{r} #| label: fig-normal-distribution #| fig-cap: "Normalna distribucija s označenim empirijskim pravilom. Tamnije sivo područje obuhvaća 68% podataka (±1σ), a ukupno označeno područje obuhvaća 95% podataka (±2σ)." x <- seq(-4, 4, by = 0.01) y <- dnorm(x, mean = 0, sd = 1) df_norm <- data.frame(x = x, y = y) ggplot(df_norm, aes(x = x, y = y)) + geom_line(linewidth = 1) + geom_area(data = subset(df_norm, x >= -1 & x <= 1), aes(x = x, y = y), fill = "gray70", alpha = 0.5) + geom_area(data = subset(df_norm, x >= -2 & x <= -1), aes(x = x, y = y), fill = "gray50", alpha = 0.5) + geom_area(data = subset(df_norm, x >= 1 & x <= 2), aes(x = x, y = y), fill = "gray50", alpha = 0.5) + geom_vline(xintercept = c(-2, -1, 0, 1, 2), linetype = "dashed", alpha = 0.5) + annotate("text", x = 0, y = 0.15, label = "68%", size = 4, fontface = "bold") + annotate("text", x = 0, y = 0.02, label = "95%", size = 3.5) + scale_x_continuous(breaks = -3:3, labels = c("-3\u03c3", "-2\u03c3", "-1\u03c3", "\u03bc", "+1\u03c3", "+2\u03c3", "+3\u03c3")) + labs( title = "Standardna normalna distribucija", subtitle = "Empirijsko pravilo: 68% unutar \u00b11\u03c3, 95% unutar \u00b12\u03c3", x = "Standardne devijacije od sredine", y = "Gusto\u0107a vjerojatnosti" ) ``` Neovisno o konkretnim vrijednostima sredine i standardne devijacije, sve normalne distribucije dijele važna svojstva. **Empirijsko pravilo** (također poznato kao pravilo 68-95-99.7) govori da približno 68% opservacija pada unutar jedne standardne devijacije od sredine ($\mu \pm \sigma$), približno 95% opservacija pada unutar dvije standardne devijacije ($\mu \pm 2\sigma$), i približno 99.7% opservacija pada unutar tri standardne devijacije ($\mu \pm 3\sigma$). Ovo pravilo omogućuje brzu procjenu normalnosti distribucije: ako su stvarni podaci vrlo daleko od ovih postotaka, distribucija vjerojatno nije normalna. Za konkretan primjer, pretpostavimo da prosječno vrijeme čitanja članaka na nekom portalu slijedi normalnu distribuciju s $\mu = 120$ sekundi i $\sigma = 30$ sekundi. Prema empirijskom pravilu, 68% čitatelja provodi između 90 i 150 sekundi (120 ± 30), 95% između 60 i 180 sekundi (120 ± 60), i gotovo svi (99.7%) između 30 i 210 sekundi (120 ± 90). U programskom jeziku R, rad s normalnom distribucijom omogućen je putem ugrađenih funkcija `dnorm()`, `pnorm()`, `qnorm()` i `rnorm()`. Funkcija `pnorm()` računa kumulativnu vjerojatnost, tj. vjerojatnost da varijabla poprimi vrijednost manju od zadane. Primjerice, za izračun udjela čitatelja koji čitaju kraće od 90 sekundi koristi se `pnorm(90, mean = 120, sd = 30)`, što vraća vrijednost od približno 0.159, tj. oko 16% čitatelja. ```{r} #| label: normalna-distribucija-primjer #| echo: true # Udio citatelja koji citaju krace od 90 sekundi pnorm(90, mean = 120, sd = 30) # Udio citatelja koji citaju izmedju 90 i 150 sekundi pnorm(150, mean = 120, sd = 30) - pnorm(90, mean = 120, sd = 30) # Z-vrijednost za citatelja koji cita 180 sekundi (180 - 120) / 30 ``` Za kontinuirane distribucije poput normalne, vjerojatnost se ne pripisuje pojedinačnim točkama već intervalima. Pitanje „kolika je vjerojatnost da čitatelj provede točno 120.0000 sekundi" nema smisla jer je odgovor nula. Međutim, pitanje „kolika je vjerojatnost da čitatelj provede između 110 i 130 sekundi" ima jasan odgovor, i taj odgovor daje **površina ispod krivulje** između tih dviju točaka. S razumijevanjem normalne distribucije kao temeljnog alata, moguće je prijeći na pitanje koje je u samom središtu statističkog zaključivanja: što se događa kada se uzimaju uzorci iz populacije i izračunavaju njihovi prosjeci? ### Centralni granični teorem Zamislimo sljedeći misaoni eksperiment. Provodi se istraživanje o zadovoljstvu gledatelja HRT-a. Prvi tjedan anketira se 50 gledatelja i dobije prosječna satisfakcija od 7.2 (na skali 1–10). Sljedeći tjedan ponovo se anketira 50 različitih gledatelja i dobije 7.5. Treći tjedan dobije se 6.9. Ako bi se ovaj postupak ponavljao stotinama puta, što bi se moglo opaziti? Distribucija svih tih prosječnih satisfakcija naziva se **uzorkovna distribucija prosjeka** (engl. *sampling distribution of the mean*), i ona ima zadivljujuća svojstva koja objašnjava **centralni granični teorem** (CGT), jedan od najvažnijih rezultata u teoriji vjerojatnosti (Rice, 2007). Razmotrimo konkretan primjer. Pretpostavimo da stvarna prosječna satisfakcija svih gledatelja HRT-a (populacijska sredina) iznosi $\mu = 7.0$, sa standardnom devijacijom $\sigma = 2.0$. Ako se uzme uzorak od $N = 50$ gledatelja i izračuna prosječna satisfakcija, gotovo sigurno se neće dobiti točno 7.0. Možda se dobije 7.3, ili 6.8, ili neka druga vrijednost. Nadalje, ponavljanjem eksperimenta s novim uzorkom od 50 ljudi, dobiva se druga vrijednost. Svaki put kada se uzorkuje, dobiva se malo drugačiji prosjek zbog slučajne varijacije u tome koje osobe uđu u uzorak. Centralni granični teorem kaže sljedeće: bez obzira kakav oblik ima originalna populacijska distribucija, uzorkovna distribucija prosjeka postaje sve normalnija kako se veličina uzorka povećava. Štoviše, CGT daje precizne formule za karakteristike ove distribucije. Ovo je izuzetno moćan rezultat jer omogućuje korištenje normalne distribucije za inferenciju čak i kada izvorna distribucija u populaciji nije normalna. Da bi se ilustrirao CGT, može se zamisliti da je distribucija satisfakcije u populaciji jako asimetrična – možda većina gledatelja daje visoke ocjene, ali postoji rep nezadovoljnih korisnika koji daju niske ocjene. Distribucija pojedinačnih ocjena nije normalna. Međutim, kada se uzorkuje 50 ljudi i izračuna prosjek, taj prosjek „izglađuje" ekstremne vrijednosti. Ako se uzorkovanje ponovi tisuću puta, distribucija tih tisuću prosjeka bit će približno normalna, unatoč asimetriji izvorne distribucije. ```{r} #| label: fig-clt-demonstration #| fig-cap: "Demonstracija centralnog graničnog teorema. S porastom veličine uzorka (N), uzorkovna distribucija prosjeka postaje sve uža i sve bliža normalnom obliku. Isprekidana linija označava populacijski prosjek (μ = 7.0)." set.seed(123) # Simulacija uzorkovanja n_uzoraka <- 1000 velicine_uzoraka <- c(5, 30, 100) pop_sredina <- 7.0 pop_sd <- 2.0 rezultati <- data.frame() for (n in velicine_uzoraka) { prosjeci <- replicate(n_uzoraka, mean(rnorm(n, pop_sredina, pop_sd))) rezultati <- rbind(rezultati, data.frame( prosjek = prosjeci, n = paste("N =", n) )) } rezultati$n <- factor(rezultati$n, levels = c("N = 5", "N = 30", "N = 100")) ggplot(rezultati, aes(x = prosjek)) + geom_histogram(aes(y = after_stat(density)), bins = 30, fill = "gray60", color = "black") + geom_vline(xintercept = pop_sredina, linetype = "dashed", linewidth = 0.8) + facet_wrap(~n, scales = "free_y") + labs( title = "Centralni grani\u010dni teorem: uzorkovna distribucija prosjeka", subtitle = "Populacija: \u03bc = 7.0, \u03c3 = 2.0 | Isprekidana linija = populacijski prosjek", x = "Prosje\u010dna satisfakcija iz uzorka", y = "Gusto\u0107a" ) + theme(strip.text = element_text(face = "bold")) ``` CGT donosi tri fundamentalna rezultata o uzorkovnoj distribuciji prosjeka. Prvo, sredina uzorkovne distribucije jednaka je populacijskoj sredini. Ako je prava prosječna satisfakcija $\mu = 7.0$, tada je prosječna vrijednost svih mogućih prosječnih satisfakcija iz uzoraka također 7.0. Formalno: $E[\bar{X}] = \mu$. Ovo znači da je prosječna satisfakcija iz uzorka **nepristrani procjenitelj** populacijske sredine, tj. u prosjeku „pogađa" pravu vrijednost. Drugim riječima, ta formula kaže da ne postoji sustavno odstupanje procjene od stvarne vrijednosti parametra. Drugo, standardna devijacija uzorkovne distribucije (koja se naziva **standardna pogreška**) jednaka je: $$\text{SE} = \frac{\sigma}{\sqrt{N}}$$ Ova formula kaže da se standardna pogreška dobiva dijeljenjem populacijske standardne devijacije ($\sigma$) s korijenom veličine uzorka ($N$). U primjeru s HRT-om, ako je $\sigma = 2.0$ i $N = 50$: $\text{SE} = 2.0 / \sqrt{50} \approx 0.283$. Ova formula ima važne implikacije: standardna pogreška smanjuje se s korijenom veličine uzorka, ne linearno. Da bi se prepolovila standardna pogreška, potrebno je učetverostručiti veličinu uzorka. Treće, kako veličina uzorka raste, oblik uzorkovne distribucije sve više nalikuje normalnoj distribuciji, neovisno o obliku populacijske distribucije. Čak i ako je originalna distribucija satisfakcije asimetrična ili multimodalna, distribucija prosječnih satisfakcija iz uzoraka veličine 30 ili više bit će približno normalna. U praksi se obično smatra da je $N \geq 30$ dovoljno za približnu normalnost uzorkovne distribucije prosjeka, premda taj prag ovisi o stupnju asimetrije izvorne distribucije. S razumijevanjem centralnog graničnog teorema, moguće je preciznije razmotriti standardnu pogrešku i njezinu primjenu u kvantificiranju nesigurnosti procjena. ### Standardna pogreška **Standardna pogreška** (SE) mjeri koliko tipično varira procjena prosjeka od uzorka do uzorka. Ovo se fundamentalno razlikuje od standardne devijacije, koja mjeri koliko tipično variraju pojedinačne opservacije. Razlika je ključna i često zbunjuje studente, stoga je valja detaljno razjasniti. Zamislimo istraživanje prosječnog broja komentara na člancima nekog novinskog portala. Standardna devijacija broja komentara po članku mogla bi biti $SD = 45$ komentara, što govori da se članci međusobno jako razlikuju po angažmanu koji generiraju. Neki članci dobiju samo 5 komentara, drugi dobiju 150. Međutim, standardna pogreška prosječnog broja komentara iz uzorka od 100 članaka bila bi $SE = 45/\sqrt{100} = 4.5$ komentara, tj. prosjeci iz različitih uzoraka variraju daleko manje od pojedinačnih članaka. Ova razlika proizlazi iz činjenice da prosjek „izglađuje" individualnu varijabilnost. Kada se prosječi 100 članaka, neki visoko komentirani članci kompenziraju one s malo komentara, rezultirajući prosjekom koji je relativno stabilan. Što je veći uzorak, to je prosjek stabilniji jer ekstremne vrijednosti imaju manje utjecaja kada se prosječe s više „normalnih" vrijednosti. U praksi, populacijska standardna devijacija $\sigma$ rijetko je poznata, pa se koristi procjena iz uzorka $s$ (tj. standardna devijacija uzorka), čime se dobiva procjena standardne pogreške: $\widehat{SE} = s / \sqrt{N}$. U R-u se standardna pogreška može izračunati jednostavnim izrazom `sd(x) / sqrt(length(x))`, gdje je `x` numerički vektor podataka. ```{r} #| label: standardna-pogreska-primjer #| echo: true # Simulirani podaci: broj komentara na 100 clanaka set.seed(789) komentari <- rpois(100, lambda = 58) # Standardna devijacija uzorka sd(komentari) # Standardna pogreska sd(komentari) / sqrt(length(komentari)) ``` Standardna pogreška ima ključnu ulogu u konstrukciji **intervala pouzdanosti**. Ako se želi konstruirati 95%-tni interval pouzdanosti za populacijski prosjek, koristi se formula: $$\bar{X} \pm 1.96 \times \text{SE}$$ Ova formula kaže da se od uzorkovnog prosjeka $\bar{X}$ oduzima i dodaje 1.96 standardnih pogrešaka. Broj 1.96 dolazi iz normalne distribucije i to je z-vrijednost koja ostavlja 2.5% u svakom repu, odnosno 95% distribucije nalazi se unutar ±1.96 standardnih devijacija od sredine. Za primjer s novinskim portalom, ako je opažen prosječno 58 komentara sa SE = 4.5, 95%-tni interval pouzdanosti bio bi: $58 \pm 1.96 \times 4.5 = 58 \pm 8.82$, odnosno od 49.18 do 66.82 komentara. Interpretacija intervala pouzdanosti zahtijeva pažnju. Pravilna interpretacija glasi: ako bi se uzorkovanje ponovilo mnogo puta i svaki put konstruirao interval pouzdanosti na ovaj način, 95% tih intervala sadržavalo bi pravu populacijsku sredinu. Važno je primijetiti da se ne može reći da postoji 95% vjerojatnosti da se prava sredina nalazi u nekom konkretnom intervalu jer je prava sredina fiksna vrijednost (samo nepoznata), a interval je ili sadržava ili ne sadržava. Vjerojatnost se odnosi na postupak konstrukcije intervala, ne na specifični interval. Za istraživača masovne komunikacije, intervali pouzdanosti pružaju korisnu informaciju o preciznosti procjene. Interval pouzdanosti od 49 do 67 komentara govori nešto drugačije od intervala od 55 do 61 komentara jer prvi sugerira veliku nesigurnost, dok drugi ukazuje na prilično preciznu procjenu. Širina intervala pouzdanosti izravno ovisi o standardnoj pogrešci, koja pak ovisi o veličini uzorka: veći uzorci daju uže intervale i precizniju procjenu. ```{r} #| label: fig-confidence-interval #| fig-cap: "Ilustracija 95%-tnih intervala pouzdanosti iz 20 ponovljenih uzoraka. Svaki horizontalni segment predstavlja jedan interval pouzdanosti. Isprekidana linija označava pravu populacijsku sredinu (μ = 58). Većina intervala sadržava pravu sredinu, ali pojedini ne, što ilustrira da 95%-tni interval pouzdanosti u 5% slučajeva ne obuhvaća stvarnu vrijednost parametra." set.seed(456) # Simulacija 20 uzoraka n_sim <- 20 prava_sredina <- 58 se <- 4.5 uzorkovni_prosjeci <- rnorm(n_sim, prava_sredina, se) donja_granica <- uzorkovni_prosjeci - 1.96 * se gornja_granica <- uzorkovni_prosjeci + 1.96 * se sadrzi_pravu <- (donja_granica <= prava_sredina) & (gornja_granica >= prava_sredina) df_ci <- data.frame( uzorak = 1:n_sim, prosjek = uzorkovni_prosjeci, donja = donja_granica, gornja = gornja_granica, sadrzi = sadrzi_pravu ) ggplot(df_ci, aes(x = uzorak, y = prosjek)) + geom_hline(yintercept = prava_sredina, linetype = "dashed", linewidth = 0.8) + geom_errorbar(aes(ymin = donja, ymax = gornja, color = sadrzi), width = 0.3, linewidth = 0.6) + geom_point(aes(color = sadrzi), size = 2) + scale_color_manual(values = c("TRUE" = "black", "FALSE" = "gray50"), labels = c("TRUE" = "Sadr\u017ei \u03bc", "FALSE" = "Ne sadr\u017ei \u03bc")) + coord_flip() + labs( title = "95%-tni intervali pouzdanosti iz 20 uzoraka", subtitle = "Isprekidana linija = prava populacijska sredina (\u03bc = 58)", x = "Uzorak", y = "Prosje\u010dan broj komentara", color = "" ) ``` S razumijevanjem kako kvantificirati nesigurnost procjene putem standardne pogreške i intervala pouzdanosti, moguće je prijeći na sljedeći korak: kako donositi odluke o hipotezama na temelju podataka iz uzorka. ## Inferencijalna statistika ### Logika testiranja hipoteza Zamislimo da novinski portal tvrdi da njegovi članci prosječno generiraju 50 komentara. Istraživač koji istražuje angažman korisnika odluči provjeriti ovu tvrdnju, pa nasumično odabere 100 članaka i otkrije da je prosječan broj komentara 58, sa standardnom devijacijom od 25. Treba li se zaključiti da portal potcjenjuje svoj angažman, ili je razlika od 8 komentara jednostavno slučajno odstupanje koje može nastati zbog uzorkovanja? Ovo je tipična situacija za **testiranje hipoteza**, tj. sistematičan pristup donošenju statističkih odluka koji pruža okvir za razlikovanje između stvarnih efekata i slučajne varijacije (Agresti i Finlay, 2009). Prije nego što se može testirati bilo što, potrebno je jasno razlikovati dva tipa hipoteza. **Istraživačka hipoteza** je znanstvena tvrdnja o svijetu, npr. „angažman korisnika portala razlikuje se od službenih procjena" ili „senzacionalni naslovi povećavaju broj klikova". Ovo su tvrdnje o komunikološkim konstruktima, o ponašanju ljudi, o učinku medijskog sadržaja, o prirodi komunikacijskih fenomena. Međutim, istraživačke hipoteze su često nejasne i teško mjerljive. Što točno znači „podcjenjuje angažman"? Za koliko? U kojim situacijama? Da bi se hipoteza mogla testirati, potrebno ju je prevesti u preciznu matematičku tvrdnju, tj. **statističku hipotezu**: „prava prosječna vrijednost komentara po članku ($\mu$) razlikuje se od 50", što se matematički zapisuje kao $\mu \neq 50$. Ključno je razumjeti da statistički test testira statističku hipotezu, ne istraživačku. Ako je studija loše dizajnirana (v. poglavlje 3 o nacrtu istraživanja), može se dobiti statistički značajan rezultat koji ne govori ništa istinito o istraživačkoj hipotezi. Kada se započinje statistički test, ne kreće se od hipoteze u koju se vjeruje. Umjesto toga, konstruira se **nulta hipoteza** ($H_0$) koja predstavlja ono što se **ne** želi biti istina, i zatim se pokušava pokazati da je ona lažna: $$H_0: \mu = 50$$ Nulta hipoteza tvrdi da portal govori istinu, tj. prosječan broj komentara doista jest 50. Ona predstavlja status quo, tvrdnju da nema efekta, da nema razlike, da nema veze između varijabli. **Alternativna hipoteza** ($H_1$) predstavlja ono što se sumnja da je istina: $$H_1: \mu \neq 50$$ Ovaj pristup možda djeluje kontraintuitivno jer se postavlja hipoteza u koju se ne vjeruje. Odgovor leži u logici dokazivanja: lakše je opovrgnuti tvrdnju nego je dokazati. Ako netko tvrdi da „svi labudovi su bijeli", potreban je samo jedan crni labud da se ta tvrdnja opovrgne. S druge strane, koliko god bijelih labudova bilo opaženo, nikada se ne može biti potpuno siguran da ne postoji crni labud negdje koji nije viđen. Najbolji način da se razumije logika testiranja hipoteza jest analogija s kaznenim suđenjem. Nulta hipoteza je „optuženik", istraživač je tužitelj, a statistički test je sudac. Kao i u kaznenom suđenju, postoji **presumpcija nevinosti**: nulta hipoteza smatra se istinitom sve dok se ne može dokazati „izvan razumne sumnje" da je lažna. Teret dokaza je na istraživaču koji želi odbaciti nultu hipotezu. Pravila su dizajnirana da štite nultu hipotezu jer, ako je ona zapravo istinita, šansa za lažnu osudu garantirano je niska (obično ispod 5%). ### Testna statistika i kritična regija Da bi se proveo test, potrebna je **testna statistika**, tj. broj koji se računaju iz podataka i koji pomaže razlikovati između nulte i alternativne hipoteze. Potrebno je znati kako se ta statistika ponaša ako je nulta hipoteza istinita. Za primjer s novinskim portalom, standardna pogreška iznosi $SE = 25/\sqrt{100} = 2.5$. Prema nultoj hipotezi, očekuje se da će prosječan broj komentara iz uzorka biti negdje oko 50, s tipičnim odstupanjem od 2.5. Opažena vrijednost od 58 je $(58 - 50) / 2.5 = 3.2$ standardne pogreške iznad očekivane vrijednosti. Drugim riječima, rezultat je 3.2 „koraka" udaljen od onoga što bi se očekivalo pod nultom hipotezom, pri čemu je svaki „korak" velik koliko i tipična varijacija uzorkovnog prosjeka. ```{r} #| label: fig-hypothesis-test #| fig-cap: "Testiranje hipoteze o prosječnom broju komentara. Siva područja označavaju kritičnu regiju (α = 0.05), tj. raspon vrijednosti u kojima se nulta hipoteza odbacuje. Isprekidana linija prikazuje opaženu vrijednost (58), koja pada u kritičnu regiju, što znači da se nulta hipoteza odbacuje." mu0 <- 50 se <- 2.5 x_obs <- 58 x <- seq(mu0 - 4*se, mu0 + 4*se, length = 200) y <- dnorm(x, mean = mu0, sd = se) df_test <- data.frame(x = x, y = y) crit_lower <- mu0 - 1.96 * se crit_upper <- mu0 + 1.96 * se ggplot(df_test, aes(x = x, y = y)) + geom_line(linewidth = 1) + geom_area(data = subset(df_test, x <= crit_lower), fill = "gray40", alpha = 0.5) + geom_area(data = subset(df_test, x >= crit_upper), fill = "gray40", alpha = 0.5) + geom_vline(xintercept = x_obs, linetype = "dashed", linewidth = 1) + geom_vline(xintercept = c(crit_lower, crit_upper), linetype = "dotted") + annotate("text", x = x_obs + 1, y = max(y) * 0.7, label = "Opa\u017eeno:\n58", hjust = 0, size = 3.5) + annotate("text", x = crit_upper + 0.5, y = max(y) * 0.3, label = "Kriti\u010dna\nregija", hjust = 0, size = 3) + labs( title = "Testiranje H\u2080: \u03bc = 50", subtitle = "Siva podru\u010dja = kriti\u010dna regija (\u03b1 = 0.05) | Isprekidana linija = opa\u017eena vrijednost", x = "Prosje\u010dan broj komentara", y = "Gusto\u0107a pod H\u2080" ) ``` Da bi se odgovorilo je li rezultat dovoljno ekstreman, potrebno je definirati **kritičnu regiju**, tj. skup vrijednosti testne statistike koji navodi na odbacivanje nulte hipoteze. Koristi se **razina značajnosti** $\alpha$, koja predstavlja maksimalnu stopu pogreške koju je istraživač spreman tolerirati. Konvencija u znanosti je obično $\alpha = 0.05$, što znači da se prihvaća 5% šanse da će se pogrešno odbaciti istinita nulta hipoteza. Za normalnu distribuciju s dvosmjernim testom, kritične vrijednosti su ±1.96 standardnih pogrešaka od sredine. Opažena vrijednost od 58 komentara pada u kritičnu regiju (58 > 54.9), stoga se **nulta hipoteza odbacuje**. Zaključuje se da postoje statistički dokazi da prosječan broj komentara nije 50. U R-u se ovakav test provodi funkcijom `t.test()`, koja automatski izračunava testnu statistiku, p-vrijednost i interval pouzdanosti: ```{r} #| label: t-test-primjer #| echo: true # Simulirani podaci: 100 clanaka s prosjecnim brojem komentara set.seed(42) broj_komentara <- rnorm(100, mean = 58, sd = 25) # Testiranje hipoteze da je populacijski prosjek 50 t.test(broj_komentara, mu = 50) ``` Iz rezultata funkcije `t.test()` mogu se iščitati svi ključni elementi statističkog testa: testna statistika (*t*), stupnjevi slobode (*df*), p-vrijednost, 95%-tni interval pouzdanosti i procjena prosjeka uzorka. S razumijevanjem mehanizma testiranja, valja se pobliže pozabaviti p-vrijednošću, tj. mjerom koja kvantificira snagu dokaza protiv nulte hipoteze. ### P-vrijednost **P-vrijednost** može se definirati na dva komplementarna načina. Prema prvom načinu (Neymanov pristup), p-vrijednost je najmanji nivo značajnosti $\alpha$ koji bi trebalo biti spremno tolerirati da bi se mogla odbaciti nulta hipoteza. Ako je p-vrijednost 0.03, moguće je odbaciti $H_0$ ako se tolerira 3% stopa pogreške, ali ne može ju se odbaciti ako se zahtijeva 1% stopa pogreške. Prema drugom načinu (Fisherov pristup), p-vrijednost je vjerojatnost dobivanja rezultata jednako ili više ekstremnih od onih koje su opaženi, pod pretpostavkom da je nulta hipoteza istinita. Ovaj pristup tretira p-vrijednost kao mjeru „iznenađenja": što je p-vrijednost niža, to su podaci „iznenađujući" ako je nulta hipoteza istinita. Za primjer s novinskim portalom sa z-vrijednošću od 3.2, p-vrijednost iznosi približno 0.0014 (ili 0.14%). Interpretacija glasi: ako bi prosječan broj komentara zaista bio 50, tada bi se u samo 0.14% slučajeva dobio prosjek koji je toliko ili više udaljen od 50 kao opaženi prosjek od 58. Budući da je ova vjerojatnost ispod uobičajenog praga od 5%, nulta se hipoteza odbacuje. U R-u se p-vrijednost za z-test može izračunati pomoću funkcije `pnorm()`: ```{r} #| label: p-vrijednost-izracun #| echo: true # Z-vrijednost z <- (58 - 50) / 2.5 # Dvosmjerna p-vrijednost p_vrijednost <- 2 * (1 - pnorm(abs(z))) p_vrijednost ``` P-vrijednost je možda najpogrešnije shvaćen koncept u statistici. Ovo nije pretjerivanje jer brojna istraživanja pokazuju da čak i profesionalni istraživači često pogrešno interpretiraju p-vrijednosti (Greenland i sur., 2016). P-vrijednost **nije** vjerojatnost da je nulta hipoteza istinita jer frekvenstički pristup statistici ne dopušta pripisivanje vjerojatnosti hipotezama, tj. one su ili istinite ili nisu. P-vrijednost **nije** vjerojatnost da su rezultati nastali slučajno jer izračun pretpostavlja da je $H_0$ istinita, a ne mjeri vjerojatnost te pretpostavke. P-vrijednost **nije** vjerojatnost pogreške pri odbacivanju $H_0$ jer ta vjerojatnost bila bi $\alpha$, ne p-vrijednost. P-vrijednost **nije** mjera veličine efekta ili praktične važnosti jer može biti vrlo mala za trivijalne efekte ako je uzorak dovoljno velik. Pravilna interpretacija p-vrijednosti može se izraziti na nekoliko načina: „Ako bi nulta hipoteza bila istinita, podaci kao ovi ili ekstremniji javljali bi se u 0.14% slučajeva", ili „Potrebno je biti spreman tolerirati stopu pogreške tipa I od najmanje 0.14% da bi se odbacila $H_0$", ili jednostavno „Podaci pružaju jake dokaze protiv nulte hipoteze." | Notacija | Značenje | Razina značajnosti | |:---------|:---------|:------------------| | $p > 0.05$ ili n.s. | Nije značajno | Zadržava se $H_0$ | | $p < 0.05$ (*) | Značajno na razini 5% | Odbacuje se $H_0$ | | $p < 0.01$ (**) | Značajno na razini 1% | Odbacuje se $H_0$ | | $p < 0.001$ (***) | Vrlo značajno | Odbacuje se $H_0$ | : Standardne konvencije za izvještavanje p-vrijednosti. Zvjezdice se koriste kao skraćeni zapis u tablicama rezultata. {#tbl-p-value} Ključno je razumjeti da **statistički značajan** ne znači **važan** ili **praktično relevantan**. Ove dvije stvari su potpuno različite i njihovo miješanje vodi do ozbiljnih pogrešaka u interpretaciji rezultata. S dovoljno velikim uzorkom, čak i minijaturni efekti postaju statistički značajni. Zamislimo analizu milijun članaka u kojoj se otkrije da prosječan broj komentara nije 50.0 već 50.2. P-vrijednost može biti $p < 0.001$, ali je razlika od 0.2 komentara praktično beznačajna jer se nijedna urednička odluka ne bi trebala temeljiti na tako trivijalnoj razlici. **Praktična značajnost** ocjenjuje se kroz veličinu efekta i kontekst. Razlika između 50 i 58 komentara može biti praktično važna jer predstavlja 16% povećanje angažmana. Veličina efekta mjeri se standardiziranim mjerama poput Cohenovog *d* (za razlike između skupina) ili Pearsonovog *r* (za korelacije). Cohen (1988) je predložio konvencionalne pragove: mali efekt ($d \approx 0.2$), srednji efekt ($d \approx 0.5$) i veliki efekt ($d \approx 0.8$). Međutim, ovi pragovi su orijentacijski jer što je „velik" efekt ovisi o kontekstu istraživanja. Za istraživača masovne komunikacije, razlikovanje statističke i praktične značajnosti ima izravne implikacije. Studija može pokazati da novi format naslova „statistički značajno" povećava broj klikova s $p < 0.001$, ali ako je povećanje samo 0.5%, vjerojatno nije vrijedno implementacije. S druge strane, studija s $p = 0.06$ koja pokazuje povećanje od 15% možda zaslužuje daljnje istraživanje, čak i ako nije prešla konvencionalni prag značajnosti. S razumijevanjem što p-vrijednost jest i što nije, potrebno je razmotriti vrste pogrešaka koje se mogu pojaviti u statističkom zaključivanju. ### Vrste pogrešaka Statistički testovi nisu savršeni. Čak i kada se sve radi ispravno, tj. kada se pravilno provede uzorkovanje, ispravno izračuna testna statistika i korektno interpretiraju rezultati, postoji mogućnost pogreške. Podaci su bučni, a ponekad uzorak jednostavno nije reprezentativan. Razumijevanje vrsta pogrešaka koje se mogu pojaviti, i načina kako ih kontrolirati, ključno je za kompetentno korištenje statističkih testova. Postoje dva tipa pogrešaka. **Pogreška tipa I** (lažno pozitivan rezultat) nastaje kada se odbaci istinita nulta hipoteza. U kontekstu primjera s novinskim portalom, to bi značilo zaključiti da prosječan broj komentara nije 50 kada zapravo jest. U analogiji s kaznenim suđenjem, to odgovara osudi nevinog čovjeka. Ova pogreška je ozbiljna jer navodi na vjerovanje u efekt koji zapravo ne postoji, što može voditi do pogrešnih teorijskih zaključaka, beskorisnih praktičnih intervencija i gubitka resursa na istraživanje lažnih tragova. Vjerojatnost pogreške tipa I označava se s $\alpha$ i ona je upravo **razina značajnosti** testa. Kada se postavi $\alpha = 0.05$, eksplicitno se kaže: prihvaća se da će se u 5% slučajeva pogrešno odbaciti istinita nulta hipoteza. Ovo je razlog zašto su konvencionalni pragovi (0.05, 0.01, 0.001) tako važni jer predstavljaju društveno dogovorene nivoe prihvatljivog rizika. Valja napomenuti da je $\alpha$ razina koja se bira prije provedbe testa. Ako je potreban konzervativniji pristup, može se postaviti $\alpha = 0.01$ ili čak $\alpha = 0.001$. **Pogreška tipa II** (lažno negativan rezultat) nastaje kada se zadrži lažna nulta hipoteza. To bi značilo zaključiti da prosječan broj komentara jest 50 kada zapravo nije. U analogiji s kaznenim suđenjem, to odgovara oslobađanju krivca. Ova pogreška je također ozbiljna jer sprječava otkrivanje stvarnih efekata, što može voditi do propuštenih znanstvenih otkrića i nepravednog odbacivanja potencijalno korisnih teorija. Vjerojatnost pogreške tipa II označava se s $\beta$. Za razliku od pogreške tipa I, ne može se direktno postaviti $\beta$ na određenu vrijednost. Umjesto toga, $\beta$ ovisi o nekoliko faktora. Kao prvo, o **veličini stvarnog efekta**: što je stvarni efekt veći, to ga je lakše detektirati i manja je vjerojatnost da će biti propušten. Ako je prava prosječna vrijednost komentara 80 umjesto 58, bit će puno lakše odbaciti nultu hipotezu da je 50. Kao drugo, o **veličini uzorka**: veći uzorak znači manju standardnu pogrešku, što omogućuje preciznije procjene i lakše otkrivanje efekata. Kao treće, o **varijabilnosti podataka**: ako su podaci vrlo varijabilni, teže je razlikovati signal od šuma. I kao četvrto, o **razini $\alpha$**: stroža $\alpha$ (npr. 0.01 umjesto 0.05) povećava $\beta$ jer, ako se postavljen stroži kriterij za pogrešku tipa I, automatski se postaje tolerantniji prema pogrešci tipa II. ```{r} #| label: fig-type-errors #| fig-cap: "Ilustracija pogrešaka tipa I i II. Puna linija prikazuje distribuciju testne statistike pod nultom hipotezom (H₀: μ = 50), a isprekidana linija distribuciju pod alternativnom hipotezom (H₁: μ = 55). Tamnije sivo područje desno od kritične vrijednosti pod H₀ predstavlja pogrešku tipa I (α), dok svjetlije sivo područje lijevo od kritične vrijednosti pod H₁ predstavlja pogrešku tipa II (β)." mu0 <- 50 mu1 <- 55 se <- 2.5 alpha <- 0.05 crit_upper <- mu0 + qnorm(1 - alpha/2) * se x <- seq(40, 65, length = 300) y_h0 <- dnorm(x, mean = mu0, sd = se) y_h1 <- dnorm(x, mean = mu1, sd = se) ggplot() + geom_line(data = data.frame(x = x, y = y_h0), aes(x = x, y = y), linewidth = 1) + geom_line(data = data.frame(x = x, y = y_h1), aes(x = x, y = y), linewidth = 1, linetype = "dashed") + geom_area(data = data.frame(x = x[x >= crit_upper], y = y_h0[x >= crit_upper]), aes(x = x, y = y), fill = "gray30", alpha = 0.4) + geom_area(data = data.frame(x = x[x < crit_upper], y = y_h1[x < crit_upper]), aes(x = x, y = y), fill = "gray70", alpha = 0.4) + geom_vline(xintercept = crit_upper, linetype = "dotted") + annotate("text", x = 57, y = 0.12, label = "\u03b1 (Tip I)", size = 3.5) + annotate("text", x = 48, y = 0.08, label = "\u03b2 (Tip II)", size = 3.5) + annotate("text", x = 50, y = 0.17, label = "H\u2080", size = 4) + annotate("text", x = 55, y = 0.17, label = "H\u2081", size = 4) + labs( title = "Pogre\u0161ke tipa I i II", subtitle = "Puna linija = distribucija pod H\u2080 | Isprekidana = distribucija pod H\u2081", x = "Prosje\u010dan broj komentara", y = "Gusto\u0107a" ) ``` Razumijevanje vrsta pogrešaka vodi prema pitanju koliko je test „osjetljiv" na stvarne efekte, tj. prema konceptu moći testa. ### Moć testa Komplementarno pojmu pogreške tipa II, **moć testa** definira se kao: $\text{Moć} = 1 - \beta$. Ova formula kaže da je moć vjerojatnost da će se ispravno odbaciti lažna nulta hipoteza, tj. vjerojatnost da će test „uhvatiti" stvarni efekt kada on doista postoji. „Moćan" test je onaj koji ima veliku vjerojatnost detektirati efekt, a moć se može razumjeti kao osjetljivost testa. Moć testa ovisi o istim faktorima kao i $\beta$, ali u suprotnom smjeru: veći stvarni efekt dovodi do veće moći jer veće efekte lakše je detektirati, veći uzorak dovodi do veće moći jer preciznije procjene omogućuju finiju diskriminaciju, manja varijabilnost dovodi do veće moći jer manje šuma olakšava otkrivanje signala, a blaža $\alpha$ (npr. 0.05 umjesto 0.01) dovodi do veće moći jer manje strogi kriteriji olakšavaju odbacivanje $H_0$. Konvencionalno, istraživači nastoje dizajnirati studije koje imaju moć od najmanje 0.80 (80%). To znači da, ako postoji pravi efekt, postoji 80% šanse da će biti detektiran. Ovo nije proizvoljan broj jer odražava kompromis između želje da se otkriju stvarni efekti i praktičnih ograničenja veličine uzorka i resursa (Cohen, 1988). Prije provedbe studije, istraživači mogu koristiti **analizu moći** da odrede koliki uzorak im je potreban za postizanje željene moći. Analiza moći zahtijeva specifikaciju očekivane veličine efekta, željene razine moći (obično 0.80) i razine značajnosti (obično 0.05). Na temelju ovih parametara, može se izračunati minimalna potrebna veličina uzorka. U R-u se analiza moći provodi pomoću funkcije `power.t.test()`: ```{r} #| label: analiza-moci-primjer #| echo: true # Koliki uzorak treba za detekciju srednjeg efekta (d = 0.5)? power.t.test( delta = 0.5, # ocekivana velicina efekta (Cohenov d) sd = 1, # standardna devijacija sig.level = 0.05, # razina znacajnosti power = 0.80, # zeljena moc type = "one.sample" ) ``` Analiza moći ima značajne praktične implikacije za planiranje istraživanja. Studija s nedovoljnom moći, recimo samo 40%, zapravo je gubitak resursa. Čak i ako postoji pravi efekt, vjerojatnije je da neće biti otkriven nego da hoće. Rezultat takve studije, ako ne pronađe značajan efekt, ne pruža nikakvu korisnu informaciju jer se ne zna je li efekt zaista ne postoji ili jednostavno nije bilo dovoljno moći da se detektira. S druge strane, studija s prekomjerno velikom moći, recimo 99%, može biti neefikasna jer koristi više resursa nego što je potrebno. Optimalno planiranje balansira između ovih ekstrema. ```{r} #| label: fig-power-analysis #| fig-cap: "Moć testa kao funkcija veličine uzorka za srednji efekt (d = 0.5) uz razinu značajnosti α = 0.05. Horizontalna isprekidana linija označava konvencionalnu željenu moć od 80%, a okomita točkasta linija označava odgovarajuću minimalnu veličinu uzorka." velicina_efekta <- 0.5 alpha <- 0.05 n_vrijednosti <- seq(10, 150, by = 5) moc_vrijednosti <- sapply(n_vrijednosti, function(n) { se <- 1 / sqrt(n) crit <- qnorm(1 - alpha/2) z_efekt <- velicina_efekta / se 1 - pnorm(crit - z_efekt) + pnorm(-crit - z_efekt) }) df_moc <- data.frame(n = n_vrijednosti, moc = moc_vrijednosti) n_80 <- n_vrijednosti[which.min(abs(moc_vrijednosti - 0.80))] ggplot(df_moc, aes(x = n, y = moc)) + geom_line(linewidth = 1) + geom_hline(yintercept = 0.80, linetype = "dashed") + geom_vline(xintercept = n_80, linetype = "dotted") + annotate("text", x = n_80 + 5, y = 0.5, label = paste("N \u2248", n_80), hjust = 0, size = 3.5) + annotate("text", x = 140, y = 0.82, label = "80% mo\u0107", size = 3.5) + scale_y_continuous(labels = scales::percent) + labs( title = "Mo\u0107 testa kao funkcija veli\u010dine uzorka", subtitle = "Veli\u010dina efekta d = 0.5 (srednji efekt) | \u03b1 = 0.05", x = "Veli\u010dina uzorka (N)", y = "Mo\u0107 (1 - \u03b2)" ) ``` Svi mogući ishodi testiranja hipoteza mogu se sažeti u jednu tablicu koja prikazuje odnose između odluka i stvarnog stanja u populaciji. | | **$H_0$ je zapravo istinita** | **$H_0$ je zapravo lažna** | |:---|:---:|:---:| | **Zadržava se $H_0$** | Ispravna odluka ($1-\alpha$) | Pogreška tipa II ($\beta$) | | **Odbacuje se $H_0$** | Pogreška tipa I ($\alpha$) | Ispravna odluka (Moć = $1-\beta$) | : Ishodi testiranja hipoteza. Dva ispravna ishoda nalaze se na dijagonali (zadržavanje istinite $H_0$ i odbacivanje lažne $H_0$), dok se dvije vrste pogrešaka nalaze izvan dijagonale. {#tbl-decision} Ova tablica pokazuje fundamentalnu napetost u testiranju hipoteza: nije moguće istovremeno minimizirati obje vrste pogrešaka uz fiksnu veličinu uzorka. Ako se smanji $\alpha$ (postane se strožiji), automatski se povećava $\beta$ (postaje teže odbaciti lažnu $H_0$). Jedini način da se smanje obje jest povećati veličinu uzorka. Ova napetost odražava fundamentalnu nesigurnost statističkog zaključivanja jer nikada nije moguće biti potpuno siguran u zaključke. Praktične implikacije ove tablice su značajne za planiranje istraživanja. Prije provedbe studije, istraživač mora donijeti eksplicitnu odluku o tome koliki rizik pogreške tipa I je spreman tolerirati (odabir $\alpha$) i koliku moć želi postići (što određuje potrebnu veličinu uzorka). Ove odluke trebaju biti donesene unaprijed, prije prikupljanja podataka, kako bi se izbjeglo prilagođavanje analize rezultatima, tj. praksa poznata kao *p-hacking* ili „lovljenje značajnosti". Razumijevanje vrsta pogrešaka također pomaže u interpretaciji literature. Kada se čita da studija „nije pronašla značajnu razliku", potrebno je zapitati se kakvu je moć imala ta studija. Ako je moć bila niska (npr. 40%), neuspjeh da se pronađe efekt ne govori mnogo jer možda efekt postoji, ali studija jednostavno nije bila dovoljno osjetljiva da ga detektira. S druge strane, studija s visokom moći (npr. 90%) koja ne pronađe efekt pruža mnogo jače dokaze da efekt doista ne postoji ili je vrlo mali. ## Cjelovit primjer: od istraživačkog pitanja do zaključka Da bi se demonstrirala primjena svih obrađenih koncepata u jednom koherentnom istraživačkom scenariju, razmotrit će se sljedeći primjer. Istraživačica želi ispitati razlikuje li se prosječno vrijeme provedeno na člancima s vijestima o zdravlju od nacionalnog prosjeka koji iznosi 90 sekundi. ```{r} #| label: cjeloviti-primjer #| echo: true # Korak 1: Prikupljanje podataka # Simulirani podaci: vrijeme citanja 80 clanaka o zdravlju (u sekundama) set.seed(2024) vrijeme_citanja <- rnorm(80, mean = 102, sd = 35) # Korak 2: Deskriptivna statistika prosjek_uzorka <- mean(vrijeme_citanja) sd_uzorka <- sd(vrijeme_citanja) n <- length(vrijeme_citanja) se <- sd_uzorka / sqrt(n) cat("Prosjek uzorka:", round(prosjek_uzorka, 2), "sekundi\n") cat("Standardna devijacija:", round(sd_uzorka, 2), "sekundi\n") cat("Velicina uzorka:", n, "\n") cat("Standardna pogreska:", round(se, 2), "sekundi\n") # Korak 3: 95%-tni interval pouzdanosti donja <- prosjek_uzorka - 1.96 * se gornja <- prosjek_uzorka + 1.96 * se cat("\n95%-tni interval pouzdanosti: [", round(donja, 2), ",", round(gornja, 2), "]\n") # Korak 4: Testiranje hipoteze H0: mu = 90 rezultat_testa <- t.test(vrijeme_citanja, mu = 90) print(rezultat_testa) # Korak 5: Velicina efekta (Cohenov d) cohenov_d <- (prosjek_uzorka - 90) / sd_uzorka cat("\nCohenov d:", round(cohenov_d, 3), "\n") # Korak 6: Analiza moci (retrospektivna) moc <- power.t.test( n = 80, delta = prosjek_uzorka - 90, sd = sd_uzorka, sig.level = 0.05, type = "one.sample" ) cat("Moc testa:", round(moc$power, 3), "\n") ``` Ovaj primjer ilustrira cjelokupan tijek statističkog zaključivanja. U prvom koraku prikupljaju se podaci. U drugom koraku izračunavaju se osnovne deskriptivne mjere (prosjek, standardna devijacija, standardna pogreška). U trećem koraku konstruira se interval pouzdanosti koji kvantificira nesigurnost procjene. U četvrtom koraku provodi se test hipoteze funkcijom `t.test()` koja automatski izračunava testnu statistiku, stupnjeve slobode i p-vrijednost. U petom koraku izračunava se veličina efekta (Cohenov *d*) kako bi se procijenila praktična značajnost rezultata. U šestom koraku provodi se analiza moći funkcijom `power.t.test()` kako bi se utvrdilo je li studija imala dovoljnu osjetljivost za detekciju opaženog efekta. Svaki od ovih koraka odgovara jednom od koncepata obrađenih u ovom poglavlju. ## Usporedba ključnih koncepata | Koncept | Definicija | Formula ili oznaka | Praktična primjena | R funkcija | |:--------|:-----------|:-------------------|:-------------------|:-----------| | Normalna distribucija | Kontinuirana distribucija određena sredinom i standardnom devijacijom | $X \sim N(\mu, \sigma)$ | Modeliranje varijabli poput gledanosti, vremena čitanja | `dnorm()`, `pnorm()`, `qnorm()`, `rnorm()` | | Standardna pogreška | Standardna devijacija uzorkovne distribucije prosjeka | $SE = \sigma / \sqrt{N}$ | Procjena preciznosti uzorkovnog prosjeka | `sd(x) / sqrt(length(x))` | | Interval pouzdanosti | Raspon koji s određenom vjerojatnošću obuhvaća populacijski parametar | $\bar{X} \pm 1.96 \times SE$ | Izvještavanje o nesigurnosti procjene | `t.test(x)$conf.int` | | P-vrijednost | Vjerojatnost podataka ekstremnih kao opaženi, pod $H_0$ | $p$ | Odluka o odbacivanju $H_0$ | `t.test(x, mu = ...)$p.value` | | Pogreška tipa I | Odbacivanje istinite $H_0$ | $\alpha$ | Odabir razine značajnosti | - | | Pogreška tipa II | Zadržavanje lažne $H_0$ | $\beta$ | Procjena rizika propuštanja efekta | - | | Moć testa | Vjerojatnost ispravnog odbacivanja lažne $H_0$ | $1 - \beta$ | Planiranje veličine uzorka | `power.t.test()` | : Usporedni pregled ključnih koncepata statističkog zaključivanja s pripadajućim formulama i R funkcijama za praktičnu provedbu. Tablica služi kao referentni vodič za primjenu ovih koncepata u istraživačkoj praksi. {#tbl-usporedba} Ova tablica sistematizira sve koncepte obrađene u poglavlju i za svaki navodi definiciju, formalnu oznaku, tipičnu primjenu u istraživanju masovne komunikacije te odgovarajuću R funkciju. Valja primijetiti da su svi koncepti međusobno povezani: normalna distribucija i centralni granični teorem opravdavaju korištenje standardne pogreške, koja je temelj za konstrukciju intervala pouzdanosti i provedbu testiranja hipoteza, a razumijevanje pogrešaka i moći testa omogućuje kvalitetno planiranje istraživanja. ## Sažetak poglavlja Statistički zaključak omogućuje prelazak od konkretnih podataka iz uzorka do općenitih zaključaka o populaciji. Ovladavanje konceptima obrađenim u ovom poglavlju nužan je preduvjet za kompetentnu primjenu statističkih testova u istraživanju masovne komunikacije. **Normalna distribucija** je teorijska distribucija određena sredinom ($\mu$) i standardnom devijacijom ($\sigma$). Njezin karakterističan zvonast oblik pojavljuje se u prirodi i društvenim znanostima jer mnoge varijable nastaju kao zbroj velikog broja malih, nezavisnih utjecaja. Empirijsko pravilo govori da 68% podataka pada unutar ±1σ, 95% unutar ±2σ i 99.7% unutar ±3σ od sredine. Za kontinuirane distribucije, vjerojatnosti se računaju kao površine ispod krivulje. Standardna normalna distribucija ($\mu = 0$, $\sigma = 1$) služi kao referentna točka za sve normalne distribucije putem z-transformacije. **Centralni granični teorem** objašnjava zašto prosjeci uzoraka imaju predvidljivo ponašanje, neovisno o obliku izvorne populacijske distribucije: uzorkovna distribucija prosjeka postaje normalna kako $N$ raste (obično je $N \geq 30$ dovoljno), sredina uzorkovne distribucije jednaka je populacijskoj sredini ($E[\bar{X}] = \mu$), a standardna pogreška iznosi $SE = \sigma/\sqrt{N}$. CGT je matematički temelj koji opravdava korištenje normalne distribucije u inferencijalnoj statistici. **Standardna pogreška** mjeri nesigurnost procjene prosjeka, tj. koliko tipično varira procjena od uzorka do uzorka. Fundamentalno se razlikuje od standardne devijacije koja mjeri varijabilnost pojedinačnih opservacija. Koristi se za konstrukciju **intervala pouzdanosti**: $\bar{X} \pm 1.96 \times SE$ za 95%-tni interval. Pravilna interpretacija intervala pouzdanosti odnosi se na postupak konstrukcije intervala, ne na specifični interval: 95% svih tako konstruiranih intervala sadržavat će pravu populacijsku sredinu. **Testiranje hipoteza** je sistematičan okvir za statističke odluke koji slijedi logiku sličnu kaznenom suđenju. Nulta hipoteza ($H_0$) predstavlja status quo i presumira se istinitom dok se ne dokaže suprotno, a alternativna hipoteza ($H_1$) predstavlja tvrdnju o efektu, razlici ili vezi. Testna statistika mjeri odstupanje podataka od očekivanja pod $H_0$, a kritična regija definira vrijednosti koje vode do odbacivanja $H_0$. **P-vrijednost** je vjerojatnost dobivanja podataka ekstremnih kao opaženi ili ekstremnijih, pod pretpostavkom da je $H_0$ istinita. Statistička značajnost ne implicira praktičnu važnost jer se veličina efekta i kontekst moraju razmatrati odvojeno. **Pogreške tipa I i II** su neizbježne u statističkom zaključivanju. Pogreška tipa I ($\alpha$) nastaje odbacivanjem istinite $H_0$, a pogreška tipa II ($\beta$) zadržavanjem lažne $H_0$. **Moć testa** ($1-\beta$) je vjerojatnost ispravnog odbacivanja lažne $H_0$, a cilj je da ona bude najmanje 80%. Nije moguće istovremeno minimizirati obje vrste pogrešaka uz fiksnu veličinu uzorka, pa je jedini način smanjivanja obiju povećanje veličine uzorka. Pri izvještavanju rezultata potrebno je navesti p-vrijednost, veličinu efekta i interval pouzdanosti, a analiza moći treba biti standardni dio planiranja istraživanja. U sljedećem poglavlju (poglavlje 10) prikazat će se konkretni statistički testovi koji se temelje na ovdje obrađenim principima: t-test za usporedbu prosjeka, ANOVA za usporedbu više skupina, korelacijska analiza, hi-kvadrat test za kategorijalne varijable te regresijska analiza. Svaki od tih testova primjenjuje logiku testiranja hipoteza, p-vrijednosti i moći testa na specifične istraživačke situacije u komunikologiji.

Notacija	Značenje	Razina značajnosti
\(p > 0.05\) ili n.s.	Nije značajno	Zadržava se \(H_0\)
\(p < 0.05\) (*)	Značajno na razini 5%	Odbacuje se \(H_0\)
\(p < 0.01\) (**)	Značajno na razini 1%	Odbacuje se \(H_0\)
\(p < 0.001\) (***)	Vrlo značajno	Odbacuje se \(H_0\)

	\(H_0\) je zapravo istinita	\(H_0\) je zapravo lažna
Zadržava se \(H_0\)	Ispravna odluka (\(1-\alpha\))	Pogreška tipa II (\(\beta\))
Odbacuje se \(H_0\)	Pogreška tipa I (\(\alpha\))	Ispravna odluka (Moć = \(1-\beta\))