Pregled baze
podataka
Baza podataka sadrži 258,757 zapisa medijskih objava
prikupljenih tijekom 2021/22/23. godine, fokusiranih na katoličke teme i
sadržaje u hrvatskim medijima. Baza predstavlja sveobuhvatan korpus za
analizu medijskog diskursa, sentimenta i angažmana publike u domeni
religijskih tema.
Osnovne karakteristike dataseta
Karakteristika
|
Vrijednost
|
Broj zapisa
|
258,757
|
Broj varijabli
|
49
|
Vremenski period
|
2021 - 2024 godina
|
Format
|
R data.table
|
Glavni jezik
|
Hrvatski (hr)
|
Geografski opseg
|
Hrvatska (HR)
|
Struktura
podataka
## Classes 'data.table' and 'data.frame': 258757 obs. of 49 variables:
## $ DATE : chr [1:258757] '2021-01-02' '2021-01-02' ...
## $ TIME : chr [1:258757] '23:36:00' '23:28:34' ...
## $ TITLE : chr [1:258757] 'Župa Gospe Brze Pomoći...' ...
## $ AUTO_SENTIMENT : chr [1:258757] 'positive' 'neutral' 'negative' ...
## $ REACH : num [1:258757] 21 48 3300 312 ...
## ... [dodatnih 44 varijabli]
Opis varijabli
Vremenske
varijable
Vremenske varijable
Varijabla
|
Tip
|
Opis
|
DATE
|
character
|
Datum objave u formatu YYYY-MM-DD
|
TIME
|
character
|
Vrijeme objave u formatu HH:MM:SS
|
year
|
numeric
|
Godina izvlučena iz datuma
|
Kategorizacija i
označavanje
Kategorizacija i označavanje
Varijabla
|
Tip
|
Opis
|
SOURCE_TYPE
|
factor
|
Tip izvora (web, youtube, facebook, twitter itd.)
|
GROUP_NAME
|
character
|
Naziv grupe za praćenje
|
KEYWORD_NAME
|
character
|
Naziv ključne riječi
|
FOUND_KEYWORDS
|
character
|
Pronađene ključne riječi u tekstu
|
TAGS
|
logical
|
Dodatne oznake (trenutno prazno)
|
LANGUAGES
|
character
|
Jezik objave (hr, bs)
|
LOCATIONS
|
character
|
Geografska lokacija (HR)
|
Sentiment
analiza
Sentiment analiza
Varijabla
|
Tip
|
Opis
|
AUTO_SENTIMENT
|
character
|
Automatski detektirani sentiment (positive/neutral/negative)
|
MANUAL_SENTIMENT
|
logical
|
Ručno označen sentiment (trenutno prazno)
|
Metrike
angažmana
Metrike angažmana
Varijabla
|
Tip
|
Opis
|
REACH
|
numeric
|
Doseg objave (broj ljudi koji je vidjelo)
|
VIRALITY
|
numeric
|
Indeks viralnosti
|
ENGAGEMENT_RATE
|
numeric
|
Stopa angažmana (%)
|
INTERACTIONS
|
numeric
|
Ukupan broj interakcija
|
FOLLOWERS_COUNT
|
numeric
|
Broj pratitelja autora
|
Specifične reakcije
(Facebook)
Specifične reakcije (Facebook)
Varijabla
|
Tip
|
Opis
|
LIKE_COUNT
|
numeric
|
Broj ‘like’ reakcija
|
LOVE_COUNT
|
numeric
|
Broj ‘love’ reakcija
|
WOW_COUNT
|
numeric
|
Broj ‘wow’ reakcija
|
HAHA_COUNT
|
numeric
|
Broj ‘haha’ reakcija
|
SAD_COUNT
|
numeric
|
Broj ‘sad’ reakcija
|
ANGRY_COUNT
|
numeric
|
Broj ‘angry’ reakcija
|
COMMENT_COUNT
|
numeric
|
Broj komentara
|
SHARE_COUNT
|
numeric
|
Broj dijeljenja
|
TOTAL_REACTIONS_COUNT
|
numeric
|
Ukupan broj svih reakcija
|
Kvaliteta i kompletnost
podataka
Pregled nedostajućih
vrijednosti
Pregled nedostajućih vrijednosti u ključnim varijablama
Varijabla
|
Nedostaje (%)
|
Razlog
|
AUTHOR
|
35.2
|
Nije uvijek dostupno od izvora
|
TAGS
|
100.0
|
Funkcionalnost nije implementirana
|
MANUAL_SENTIMENT
|
100.0
|
Ručno označavanje nije provedeno
|
FOLLOWERS_COUNT
|
68.5
|
Ovisi o platformi i dostupnosti
|
REDDIT_SCORE
|
92.1
|
Specifično za Reddit objave
|
VIEW_COUNT
|
85.3
|
Specifično za video sadržaj
|
Statistički sažetak
numeričkih varijabli
Statistički sažetak ključnih numeričkih varijabli
Varijabla
|
Mean
|
Median
|
SD
|
Min
|
Max
|
REACH
|
2543.2
|
312.0
|
8734.5
|
0
|
125000.0
|
INTERACTIONS
|
67.8
|
8.0
|
245.6
|
0
|
5847.0
|
ENGAGEMENT_RATE
|
4.2
|
1.8
|
8.7
|
0
|
89.5
|
LIKE_COUNT
|
52.1
|
6.0
|
187.3
|
0
|
3245.0
|
INFLUENCE_SCORE
|
3.2
|
3.0
|
2.1
|
1
|
10.0
|
Primjeri
korištenja
Osnovne analize
Osnovne analize - pregled kodova i rezultata
Tip analize
|
R kod
|
Rezultat
|
Sortiranje
|
Analiza sentimenta po izvorima
|
sentiment_by_source <- dta[, .N, by = .(FROM, AUTO_SENTIMENT)]
|
Broj objava po izvoru i sentimentu
|
sentiment_by_source[order(-N)]
|
Trendovi kroz vrijeme
|
temporal_trends <- dta[, .N, by = .(year, month = substr(DATE, 6,
7))]
|
Broj objava po mjesecima
|
temporal_trends[order(year, month)]
|
Top izvori po angažmanu
|
top_sources <- dta[, .(avg_engagement = mean(ENGAGEMENT_RATE, na.rm =
TRUE)), by = FROM]
|
Prosječni angažman po izvoru
|
top_sources[order(-avg_engagement)]
|
Napredne analize
Napredne analize - detaljni pregled metoda
Analiza
|
Potrebne biblioteke
|
Ključni kod
|
Očekivani output
|
Tokenizacija teksta
|
tidytext, dplyr
|
unnest_tokens(word, TITLE)
|
Pojedinačne riječi iz naslova
|
Čišćenje stop riječi
|
tidytext
|
anti_join(stop_words)
|
Filtrirane značajne riječi
|
Brojanje riječi po sentimentu
|
dplyr, tidytext
|
count(word, AUTO_SENTIMENT, sort = TRUE)
|
Frekvencija riječi po sentimentu
|
Sentiment scoring
|
dplyr, case_when
|
summarise(sentiment_score = sum(n * case_when(…)))
|
Numerički sentiment score
|
Wordcloud generiranje
|
wordcloud, RColorBrewer
|
wordcloud(words, freq, colors = brewer.pal(8, ‘Dark2’))
|
Vizualna reprezentacija
|
Licence i
citiranje
Molimo citirajte ovu bazu u svojim radovima koristeći sljedeći
format:
[Šikić, Luka/Hrvatsko katoličko sveučilište].
(2025). Katolički digitalni medijski prostor u Hrvatskoj 2025.
Dataset sadrži 258,757 medijskih objava iz hrvatskih medija.
Pristupljeno: 2025-07-24.
Dodatni resursi
Zadnja ažurirana: 2025-07-24
Verzija: 1.0
R verzija: R version 4.2.2 (2022-10-31 ucrt)