1 Pregled baze podataka

Baza podataka sadrži 258,757 zapisa medijskih objava prikupljenih tijekom 2021/22/23. godine, fokusiranih na katoličke teme i sadržaje u hrvatskim medijima. Baza predstavlja sveobuhvatan korpus za analizu medijskog diskursa, sentimenta i angažmana publike u domeni religijskih tema.

Osnovne karakteristike dataseta
Karakteristika	Vrijednost
Broj zapisa	258,757
Broj varijabli	49
Vremenski period	2021 - 2024 godina
Format	R data.table
Glavni jezik	Hrvatski (hr)
Geografski opseg	Hrvatska (HR)

1.1 Struktura podataka

## Classes 'data.table' and 'data.frame': 258757 obs. of 49 variables:

## $ DATE                 : chr [1:258757] '2021-01-02' '2021-01-02' ...

## $ TIME                 : chr [1:258757] '23:36:00' '23:28:34' ...

## $ TITLE                : chr [1:258757] 'Župa Gospe Brze Pomoći...' ...

## $ AUTO_SENTIMENT       : chr [1:258757] 'positive' 'neutral' 'negative' ...

## $ REACH                : num [1:258757] 21 48 3300 312 ...

## ... [dodatnih 44 varijabli]

2 Opis varijabli

2.1 Vremenske varijable

Vremenske varijable
Varijabla	Tip	Opis
DATE	character	Datum objave u formatu YYYY-MM-DD
TIME	character	Vrijeme objave u formatu HH:MM:SS
year	numeric	Godina izvlučena iz datuma

2.2 Sadržaj i metapodaci

Sadržaj i metapodaci
Varijabla	Tip	Opis
TITLE	character	Naslov članka/objave
FULL_TEXT	character	Potpuni tekst objave(dostupan isključivo na zahtjev)
MENTION_SNIPPET	character	Isječak teksta koji sadrži ključne riječi
AUTHOR	character	Autor objave (ako je dostupan)
FROM	character	Izvor/domena web stranice
URL	character	Potpuna URL adresa objave
URL_PHOTO	character	URL fotografije povezane s objavom

2.3 Kategorizacija i označavanje

Kategorizacija i označavanje
Varijabla	Tip	Opis
SOURCE_TYPE	factor	Tip izvora (web, youtube, facebook, twitter itd.)
GROUP_NAME	character	Naziv grupe za praćenje
KEYWORD_NAME	character	Naziv ključne riječi
FOUND_KEYWORDS	character	Pronađene ključne riječi u tekstu
TAGS	logical	Dodatne oznake (trenutno prazno)
LANGUAGES	character	Jezik objave (hr, bs)
LOCATIONS	character	Geografska lokacija (HR)

2.4 Sentiment analiza

Sentiment analiza
Varijabla	Tip	Opis
AUTO_SENTIMENT	character	Automatski detektirani sentiment (positive/neutral/negative)
MANUAL_SENTIMENT	logical	Ručno označen sentiment (trenutno prazno)

2.5 Metrike angažmana

Metrike angažmana
Varijabla	Tip	Opis
REACH	numeric	Doseg objave (broj ljudi koji je vidjelo)
VIRALITY	numeric	Indeks viralnosti
ENGAGEMENT_RATE	numeric	Stopa angažmana (%)
INTERACTIONS	numeric	Ukupan broj interakcija
FOLLOWERS_COUNT	numeric	Broj pratitelja autora

2.6 Specifične reakcije (Facebook)

Specifične reakcije (Facebook)
Varijabla	Tip	Opis
LIKE_COUNT	numeric	Broj ‘like’ reakcija
LOVE_COUNT	numeric	Broj ‘love’ reakcija
WOW_COUNT	numeric	Broj ‘wow’ reakcija
HAHA_COUNT	numeric	Broj ‘haha’ reakcija
SAD_COUNT	numeric	Broj ‘sad’ reakcija
ANGRY_COUNT	numeric	Broj ‘angry’ reakcija
COMMENT_COUNT	numeric	Broj komentara
SHARE_COUNT	numeric	Broj dijeljenja
TOTAL_REACTIONS_COUNT	numeric	Ukupan broj svih reakcija

3 Kvaliteta i kompletnost podataka

3.1 Pregled nedostajućih vrijednosti

Pregled nedostajućih vrijednosti u ključnim varijablama
Varijabla	Nedostaje (%)	Razlog
AUTHOR	35.2	Nije uvijek dostupno od izvora
TAGS	100.0	Funkcionalnost nije implementirana
MANUAL_SENTIMENT	100.0	Ručno označavanje nije provedeno
FOLLOWERS_COUNT	68.5	Ovisi o platformi i dostupnosti
REDDIT_SCORE	92.1	Specifično za Reddit objave
VIEW_COUNT	85.3	Specifično za video sadržaj

3.2 Statistički sažetak numeričkih varijabli

Statistički sažetak ključnih numeričkih varijabli
Varijabla	Mean	Median	SD	Min	Max
REACH	2543.2	312.0	8734.5	0	125000.0
INTERACTIONS	67.8	8.0	245.6	0	5847.0
ENGAGEMENT_RATE	4.2	1.8	8.7	0	89.5
LIKE_COUNT	52.1	6.0	187.3	0	3245.0
INFLUENCE_SCORE	3.2	3.0	2.1	1	10.0

4 Primjeri korištenja

4.1 Osnovne analize

Osnovne analize - pregled kodova i rezultata
Tip analize	R kod	Rezultat	Sortiranje
Analiza sentimenta po izvorima	sentiment_by_source <- dta[, .N, by = .(FROM, AUTO_SENTIMENT)]	Broj objava po izvoru i sentimentu	sentiment_by_source[order(-N)]
Trendovi kroz vrijeme	temporal_trends <- dta[, .N, by = .(year, month = substr(DATE, 6, 7))]	Broj objava po mjesecima	temporal_trends[order(year, month)]
Top izvori po angažmanu	top_sources <- dta[, .(avg_engagement = mean(ENGAGEMENT_RATE, na.rm = TRUE)), by = FROM]	Prosječni angažman po izvoru	top_sources[order(-avg_engagement)]

4.2 Napredne analize

Napredne analize - detaljni pregled metoda
Analiza	Potrebne biblioteke	Ključni kod	Očekivani output
Tokenizacija teksta	tidytext, dplyr	unnest_tokens(word, TITLE)	Pojedinačne riječi iz naslova
Čišćenje stop riječi	tidytext	anti_join(stop_words)	Filtrirane značajne riječi
Brojanje riječi po sentimentu	dplyr, tidytext	count(word, AUTO_SENTIMENT, sort = TRUE)	Frekvencija riječi po sentimentu
Sentiment scoring	dplyr, case_when	summarise(sentiment_score = sum(n * case_when(…)))	Numerički sentiment score
Wordcloud generiranje	wordcloud, RColorBrewer	wordcloud(words, freq, colors = brewer.pal(8, ‘Dark2’))	Vizualna reprezentacija

5 Tehnički detalji

5.1 Izvorni format podataka

Tehnički detalji dataseta i preporučeni alati
Kategorija	Vrijednost/Opis	Napomene
Izvorne datoteke	op_e_[datum-raspon].xlsx	Batch obrada po vremenskim periodima
Format obrade	R data.table	Optimizirano za velike podatke
Kodiranje	UTF-8	Podrška za hrvatske znakove
Separatori	Automatski detektirani	Excel format automatski parsiran
Nedostajuće vrijednosti	NA	Standardno R označavanje
Preporučena biblioteka - Manipulacija	data.table - za brzu manipulaciju velikih dataset-a	Brzina: 10-100x brža od base R
Preporučena biblioteka - Sintaksa	dplyr - za čišću i čitljiviju sintaksu	Kompatibilnost s tidyverse ekosystemom
Preporučena biblioteka - Vizualizacija	ggplot2 - za profesionalne vizualizacije	Grammar of graphics pristup
Preporučena biblioteka - Datumi	lubridate - za rad s datumskim formatima	Timezone aware operacije
Preporučena biblioteka - Tekst	stringr - za manipulaciju i analizu teksta	Regex podrška za složene operacije

5.2 Napomene o performansama

Preporuke za optimalne performanse
Operacija	Preporučeni pristup	Očekivano vrijeme
Čitanje podataka	fread() za brže učitavanje	< 30 sekundi
Grupiranje i agregacija	data.table sintaksa [, .N, by=]	< 5 sekundi
Filtriranje velikih tekstova	Koristiti grep() s fixed=TRUE	10-60 sekundi
Sortiranje po datumu	Konvertirati DATE u Date klasu	< 10 sekundi
Analiza sentimenta	Koristiti existirajuće AUTO_SENTIMENT	1-5 minuta

5.3 Preuzmi bazu podataka

📊 Kaggle Dataset: Croatian Catholic Media Space 2021- 2024

6 Licence i citiranje

Molimo citirajte ovu bazu u svojim radovima koristeći sljedeći format:

[Šikić, Luka/Hrvatsko katoličko sveučilište]. (2025). Katolički digitalni medijski prostor u Hrvatskoj 2025. Dataset sadrži 258,757 medijskih objava iz hrvatskih medija. Pristupljeno: 2025-07-24.

6.1 Dodatni resursi

GitHub repozitorij: [https://github.com/lusiki/DigiKat]
Dokumentacija: [https://lusiki.github.io/DigiKat/baza.html]
Kontakt: [luka.sikic@unicath.hr]
ORCID: [0009-0006-3519-0272]

Zadnja ažurirana: 2025-07-24
Verzija: 1.0
R verzija: R version 4.2.2 (2022-10-31 ucrt)

Baza podataka - Katolički digitalni medijski prostor u Hrvatskoj (2021-2024)

2025-07-24