Naziv
Računalna analiza teksta i podataka
Organizacijska jedinica
Odsjek za informacijske i komunikacijske znanosti
ECTS bodovi
5
Šifra
181265
Semestri izvođenja
ljetni
Jezik izvođenja
hrvatski
Satnica
Predavanja
15
Seminar
15
Vježbe u praktikumu
15

Cilj
Cilj predmeta jest razumijevanje podataka, proces, algoritama i aplikacija u analizi velikih količina podataka (big data) u cilju stvaranja novoga znanja. Primijenit će se statistički i jezično ovisni modeli za dubinsku analizu teksta, provesti računalno obilježavanje i analiza podataka. Obrada teksta će se provesti i primjenom programskog jezika Python i primjenom drugih alata. Analiza strukturiranih podataka će se izvršiti primjenom odgovarajućeg softvera za analizu podataka (programski jezik R). Postupak analitike završava vizualizacijom podataka i analizom moguće primjene u konkretnim situacijama.
Sadržaj
  1. Uvodno predavanje.
  2. Velike količine podataka (big data): obilježja, analiza vrste podataka, resursi. Tehnološke karakteristike. Prikupljanje resursa za analizu.
  3. Analiza velikih količina podataka (big data): kvaliteta podataka. Prikaza mogućih primjena. Analiza i primjena alata za statističku ekstrakciju podataka.
  4. Uloga i analiza vrijednosti velikih količina podataka (big data). Dubinska analiza teksta. Analiza i primjena alata za jezičnu ekstrakciju podataka.
  5. Obilježavanje podataka primjenom odgovarajućih alata. Deskriptivna analiza velikih količina podataka. Prediktivna analitika u primjeni velikih količina podataka (big data).
  6. Analiza značajki tekstualnih podatkovnih skupova (korpusa) i njihova primjena u računalnoj analizi i obradi jezika; analiza procesa opojavničenja tekstualnog podatkovnog skupa (korpusa), tj. procesa svođenja na manje sastavne dijelove (tokene) primjenom skripnog jezika Python.
  7. Analiza procesa korjenovanja (lematizacije), analiza utjecaja visokofrekventnih unigrama na generiranje šuma te evaluacija mogućnosti eliminacije generiranog šuma primjenom skripnog jezika Python.
  8. Analiza mogućnosti primjene računalne leksičko-semantičke mreže i ekstrakcije podataka primjenom skripnog jezika Python. Analiza procesa razdjeljivanja tekstualnog podatkovnog skupa (korpusa), tj. procesa pronalaženja osnovnih gradivnih elemenata rečenica primjenom skripnog jezika Python.
  9. Primjena skriptnog jezika u pretraživanju podataka. Analiza procesa POS označavanja tekstualnog podatkovnog skupa primjenom skripnog jezika Python.
  10. Programski jezik R. Radno okruženje. Unos podataka kroz komandnu liniju i radno sučelje. Osnovne funkcije za rad s R-om kao kalkulatorom. Svojstva podataka. Editiranje podataka. Nepostojeći podaci. Vrste podataka, operatori, osnovne funkcije. Sumirani podaci.
  11. Programski jezik R. Funkcije za konverziju. Rad s objektima. Izrada, prikaz i brisanje objekata.
  12. Programski jezik R.Tipovi podataka (logički, numerički, kompleksni, simboli). Pretvorba tipova: as. Čitanje i unos podataka: Liste podatka kao objekti, pristupanje elementima. Pretraživanje liste. Dohvaćanje i čitanje podataka.
  13. Programski jezik R. Okviri podataka (data.frame). Čitanje i pisanje podataka u okvirima. Izrada tablica. Proširivanje podataka. Nepotpuni podaci. Primjena nad odabranim setom podataka.
  14. Grafički prikaz podataka. Grafičke funkcije, kontrola crtanja. Iscrtavanje histograma. Jednostavnije analize primjenom programskog jezika R-a. Priprema podataka. Analiza rezultata.
  15. Samostalna priprema i analiza podataka za jednostavnije analize primjenom programskog jezika R-a. Vizualni prikaz podataka. Analiza rezultata i interpretacija. Uočavanje trendova i osmišljavanje moguće primjene u širem kontekstu.

Ishodi učenja
  1. Razumijevanje podataka, proces, algoritama i aplikacija u analizi velikih količina podataka (big data) u cilju stvaranja novoga znanja
  2. Primjena alata i tehnika za statističku i jezičnu analizu podataka
  3. Primjena i razumijevanje metoda za vizualizaciju podataka
  4. Razumijevanje analitičkih metoda u obradi podatka
  5. Primjena i razumijevanje metoda za vizualizaciju podataka
  6. Primjena alata i tehnika za statističku i jezičnu analizu podataka
  7. Razumijevanje podataka, proces, algoritama i aplikacija u analizi velikih količina podataka (big data) u cilju stvaranja novoga znanja
Metode podučavanja
Predavanja, vježbe, timski projektni rad.
Metode ocjenjivanja
Konačna ocjena čini ukupnost znanja, ispunjenih zadataka i pohađanja tijekom godine, te uključuje ocjenu iz pismenog, usmenog, izvršenih samostalnih vježbe i projektnog rada.

Obavezna literatura
  1. Steven Bird, Ewan Klein, and Edward Loper. Natural Language Processing with Python – Analyzing Text with the Natural Language Toolkit. O'Reilly Media, 2009
  2. Marrara, S., Pejic-Bach, M., Seljan, S., Topalovic, A. FinTech and SMEs - The Italian Case. FinTech as a Disruptive Technology for Financial Institutions, IGI-Global, 2019.
  3. Pejic-Bach, M., Krstic, Z., Seljan, S., Turulija, L. Text Mining for Big Data Analysis in Financial Sector, 2019.
  4. Paradis, Emmanuel. R for Beginners, 2005.
  5. Maindonald, J. H. Using R for Data Analysis and Graphics Introduction, Code and Commentary, 2008.
  6. Provost, F.; Fawcett, T. Data Science for Business: What you need to know about data minig and data-analytic thinking, 2013.
  7. Python https://www.python.org/
Dopunska literatura
  1. Zhai, ChengXiang. Statistical Language Models for Information Retrieval A Critical Review. Foundations and Trends, Information Retrieval, Vol. 2, No. 3 (2008) 137–213
  2. Covington, D. Analytics. Data Science, Data Analysis and Predictive Analytics for Business. 5th ed.
  3. Gašpar, A.; Seljan, S. Consistency of Translated Terminology Measured by the Herfindahl-Hirshman Index (HHI). // Lecture Notes in Computer Science (LNCS). (2016)
  4. Tsvetovat, M.; Kouznetsov, A. Social Network Analysis for Startups, O'Reilly, 2011
  5. Seljan, S.; Stančić, H.; Dunđer, I. Extracting Terminology by Language Independent Methods. Forum Translationswissenschaft. Translation Studies and Translation Practice. Peter Lang GmbH, 2017. Str. 141-147

Obavezan predmet na studijima
  1. Informacijske znanosti, sveučilišni diplomski jednopredmetni studij
Izborni predmet na studijima
  1. Informacijske znanosti, sveučilišni diplomski dvopredmetni studij
  2. Informacijske znanosti, sveučilišni diplomski jednopredmetni studij