1 Pregled baze podataka

Baza podataka sadrži 258,757 zapisa medijskih objava prikupljenih tijekom 2021/22/23. godine, fokusiranih na katoličke teme i sadržaje u hrvatskim medijima. Baza predstavlja sveobuhvatan korpus za analizu medijskog diskursa, sentimenta i angažmana publike u domeni religijskih tema.

Osnovne karakteristike dataseta
Karakteristika Vrijednost
Broj zapisa 258,757
Broj varijabli 49
Vremenski period 2021 - 2024 godina
Format R data.table
Glavni jezik Hrvatski (hr)
Geografski opseg Hrvatska (HR)

1.1 Struktura podataka

## Classes 'data.table' and 'data.frame': 258757 obs. of 49 variables:
## $ DATE                 : chr [1:258757] '2021-01-02' '2021-01-02' ...
## $ TIME                 : chr [1:258757] '23:36:00' '23:28:34' ...
## $ TITLE                : chr [1:258757] 'Župa Gospe Brze Pomoći...' ...
## $ AUTO_SENTIMENT       : chr [1:258757] 'positive' 'neutral' 'negative' ...
## $ REACH                : num [1:258757] 21 48 3300 312 ...
## ... [dodatnih 44 varijabli]

2 Opis varijabli

2.1 Vremenske varijable

Vremenske varijable
Varijabla Tip Opis
DATE character Datum objave u formatu YYYY-MM-DD
TIME character Vrijeme objave u formatu HH:MM:SS
year numeric Godina izvlučena iz datuma

2.2 Sadržaj i metapodaci

Sadržaj i metapodaci
Varijabla Tip Opis
TITLE character Naslov članka/objave
FULL_TEXT character Potpuni tekst objave(dostupan isključivo na zahtjev)
MENTION_SNIPPET character Isječak teksta koji sadrži ključne riječi
AUTHOR character Autor objave (ako je dostupan)
FROM character Izvor/domena web stranice
URL character Potpuna URL adresa objave
URL_PHOTO character URL fotografije povezane s objavom

2.3 Kategorizacija i označavanje

Kategorizacija i označavanje
Varijabla Tip Opis
SOURCE_TYPE factor Tip izvora (web, youtube, facebook, twitter itd.)
GROUP_NAME character Naziv grupe za praćenje
KEYWORD_NAME character Naziv ključne riječi
FOUND_KEYWORDS character Pronađene ključne riječi u tekstu
TAGS logical Dodatne oznake (trenutno prazno)
LANGUAGES character Jezik objave (hr, bs)
LOCATIONS character Geografska lokacija (HR)

2.4 Sentiment analiza

Sentiment analiza
Varijabla Tip Opis
AUTO_SENTIMENT character Automatski detektirani sentiment (positive/neutral/negative)
MANUAL_SENTIMENT logical Ručno označen sentiment (trenutno prazno)

2.5 Metrike angažmana

Metrike angažmana
Varijabla Tip Opis
REACH numeric Doseg objave (broj ljudi koji je vidjelo)
VIRALITY numeric Indeks viralnosti
ENGAGEMENT_RATE numeric Stopa angažmana (%)
INTERACTIONS numeric Ukupan broj interakcija
FOLLOWERS_COUNT numeric Broj pratitelja autora

2.6 Specifične reakcije (Facebook)

Specifične reakcije (Facebook)
Varijabla Tip Opis
LIKE_COUNT numeric Broj ‘like’ reakcija
LOVE_COUNT numeric Broj ‘love’ reakcija
WOW_COUNT numeric Broj ‘wow’ reakcija
HAHA_COUNT numeric Broj ‘haha’ reakcija
SAD_COUNT numeric Broj ‘sad’ reakcija
ANGRY_COUNT numeric Broj ‘angry’ reakcija
COMMENT_COUNT numeric Broj komentara
SHARE_COUNT numeric Broj dijeljenja
TOTAL_REACTIONS_COUNT numeric Ukupan broj svih reakcija

3 Kvaliteta i kompletnost podataka

3.1 Pregled nedostajućih vrijednosti

Pregled nedostajućih vrijednosti u ključnim varijablama
Varijabla Nedostaje (%) Razlog
AUTHOR 35.2 Nije uvijek dostupno od izvora
TAGS 100.0 Funkcionalnost nije implementirana
MANUAL_SENTIMENT 100.0 Ručno označavanje nije provedeno
FOLLOWERS_COUNT 68.5 Ovisi o platformi i dostupnosti
REDDIT_SCORE 92.1 Specifično za Reddit objave
VIEW_COUNT 85.3 Specifično za video sadržaj

3.2 Statistički sažetak numeričkih varijabli

Statistički sažetak ključnih numeričkih varijabli
Varijabla Mean Median SD Min Max
REACH 2543.2 312.0 8734.5 0 125000.0
INTERACTIONS 67.8 8.0 245.6 0 5847.0
ENGAGEMENT_RATE 4.2 1.8 8.7 0 89.5
LIKE_COUNT 52.1 6.0 187.3 0 3245.0
INFLUENCE_SCORE 3.2 3.0 2.1 1 10.0

4 Primjeri korištenja

4.1 Osnovne analize

Osnovne analize - pregled kodova i rezultata
Tip analize R kod Rezultat Sortiranje
Analiza sentimenta po izvorima sentiment_by_source <- dta[, .N, by = .(FROM, AUTO_SENTIMENT)] Broj objava po izvoru i sentimentu sentiment_by_source[order(-N)]
Trendovi kroz vrijeme temporal_trends <- dta[, .N, by = .(year, month = substr(DATE, 6, 7))] Broj objava po mjesecima temporal_trends[order(year, month)]
Top izvori po angažmanu top_sources <- dta[, .(avg_engagement = mean(ENGAGEMENT_RATE, na.rm = TRUE)), by = FROM] Prosječni angažman po izvoru top_sources[order(-avg_engagement)]

4.2 Napredne analize

Napredne analize - detaljni pregled metoda
Analiza Potrebne biblioteke Ključni kod Očekivani output
Tokenizacija teksta tidytext, dplyr unnest_tokens(word, TITLE) Pojedinačne riječi iz naslova
Čišćenje stop riječi tidytext anti_join(stop_words) Filtrirane značajne riječi
Brojanje riječi po sentimentu dplyr, tidytext count(word, AUTO_SENTIMENT, sort = TRUE) Frekvencija riječi po sentimentu
Sentiment scoring dplyr, case_when summarise(sentiment_score = sum(n * case_when(…))) Numerički sentiment score
Wordcloud generiranje wordcloud, RColorBrewer wordcloud(words, freq, colors = brewer.pal(8, ‘Dark2’)) Vizualna reprezentacija

5 Tehnički detalji

5.1 Izvorni format podataka

Tehnički detalji dataseta i preporučeni alati
Kategorija Vrijednost/Opis Napomene
Izvorne datoteke op_e_[datum-raspon].xlsx Batch obrada po vremenskim periodima
Format obrade R data.table Optimizirano za velike podatke
Kodiranje UTF-8 Podrška za hrvatske znakove
Separatori Automatski detektirani Excel format automatski parsiran
Nedostajuće vrijednosti NA Standardno R označavanje
Preporučena biblioteka - Manipulacija data.table - za brzu manipulaciju velikih dataset-a Brzina: 10-100x brža od base R
Preporučena biblioteka - Sintaksa dplyr - za čišću i čitljiviju sintaksu Kompatibilnost s tidyverse ekosystemom
Preporučena biblioteka - Vizualizacija ggplot2 - za profesionalne vizualizacije Grammar of graphics pristup
Preporučena biblioteka - Datumi lubridate - za rad s datumskim formatima Timezone aware operacije
Preporučena biblioteka - Tekst stringr - za manipulaciju i analizu teksta Regex podrška za složene operacije

5.2 Napomene o performansama

Preporuke za optimalne performanse
Operacija Preporučeni pristup Očekivano vrijeme
Čitanje podataka fread() za brže učitavanje < 30 sekundi
Grupiranje i agregacija data.table sintaksa [, .N, by=] < 5 sekundi
Filtriranje velikih tekstova Koristiti grep() s fixed=TRUE 10-60 sekundi
Sortiranje po datumu Konvertirati DATE u Date klasu < 10 sekundi
Analiza sentimenta Koristiti existirajuće AUTO_SENTIMENT 1-5 minuta

5.3 Preuzmi bazu podataka

📊 Kaggle Dataset: Croatian Catholic Media Space 2021- 2024

6 Licence i citiranje

Molimo citirajte ovu bazu u svojim radovima koristeći sljedeći format:

[Šikić, Luka/Hrvatsko katoličko sveučilište]. (2025). Katolički digitalni medijski prostor u Hrvatskoj 2025. Dataset sadrži 258,757 medijskih objava iz hrvatskih medija. Pristupljeno: 2025-07-24.

6.1 Dodatni resursi


Zadnja ažurirana: 2025-07-24
Verzija: 1.0
R verzija: R version 4.2.2 (2022-10-31 ucrt)