Osnovne informacije

Obrada podataka je kolegij na diplomskoj razini koji u zimskom semestru akademske godine 2021/22 na Fakultetu hrvatskih studija u Zagrebu izvodi Luka Sikic. Kolegij je prvenstveno namijenjen sociolozima, ali i prilagođen za studente iz drugih društvenih zananosti poput politologije, komunikologije, povijesti i ekonomije te služi kao premosnica od osnovne razine statističkih znanja do primjene statistike u modernom i praktičnom kontekstu.


Kolegij polazi od računalnog pristupa društvenim znanostima (computational social science (CSS)) i modernih izvora podatka puput Web-a, aplikacija, društvenih mreža, urbanih senzora i dr. Fokus je na korištenju računalnih tehnologija za obradu i analizu podataka (Data Science) te kolegij ne predstavlja sveobuhvatnu referencu za rad s Big Data tehnologijama u društvenim znanostima. Ipak, sadržaj kolegija će studentima koristiti kao korisno polazište za daljnji studij Big Data principa i alata u drštvenim znanostima i općenito. Za studente zainteresirane za rad sa Big Data tehnologijama se preporuča samostalno nadupunjavanje kolegija temama: rad sa terminalom (Bash Shell), rad sa platformama za suradnju i razmjenu koda (Git, GitHub), rad sa Docker-om, programiranje i iteraciju, paralelno programiranje, rad u oblaku (Cloud).


Cilj kolegija je upoznavanje studenata sa:

  1. Ekosustavom modernog upravljanja podatcima (Data Science)
  2. Alatima za obradu i manipulaciju podataka (paketi u programskom jeziku R, SQL, Spark )
  3. Modernom metodologijom za analizu podataka (regresija, strojno učenje, obrada teksta - NLP)
  4. Alatima za prezentaciju i dijeljenje rezulata (Markdown, Git)
  5. Programskim jezikom R


Kolegij će osposobiti studente za razumijevanje modernih izvora podataka te metodolgije i alata za obradu podataka. To će studentima omogućiti uključivanje u modernu istraživačku paradigmu i tehnološke (frontier) tokove. Osim naglaska na akademsku primjenu stečenog znanja, kroz kolegij će se studentima olakšati uključivanje u poslovni IT sektor na strani analitike i projektnog menadžmenta.


Literatura

Koristiti ćemo mnoštvo različitih knjiga i resursa koje će biti dostupne na linkovima kod svakog predavanja.

Sljedeća knjiga ulazi u obaveznu literaturu za kolegij:

R for Data Science
od Garrett Grolemund-a i Hadley Wickham-a
Ovo je referenca za rad sa jezikom R. Dostupna je i bookdown verzija.


Polaganje ispita

U zimskom , ljetnom i jesenskom ispitnom roku studenti imaju završni pismeni ispit iz tema obrađenih na predavanjima i prema priloženoj literaturi. Ispit je položen ako student ostvari 60% od ukupno mogućih bodova: 60-64% = (2); 65-74% = (3); 75-84% = (4); 85% = (5). Uvjet za izlazak na ispit je sudjelovanje na nastavi (maksimalno 2 izostanka) i izrada prezentacije ili seminarskog rada.


Prezentacija/seminarski rad

Svi studenti tijekom semestra moraju održati jednu prezentaciju prema zadanoj literaturi u .ppt formi. Izlagači moraju pripremiti na kraju prezentacije i nekoliko (2-3) ključnih pitanja za raspravu na kraju obrađene teme. Prezentaciju je potrebno poslati na e-mail najkasnije u petak, tjedan dana prije seminara.

Seminarski rad se sastoji od (min) 5 stranica teksta i (min) 5 akademskih referenci na temu povezanu sa kolegijem. Rad je potrebno poslati na e-mail najkasnije u petak, tjedan dana prije izlaska na ispit. Svi oblici plagiranja će se sankcionirati.