Naziv
Računalna analiza teksta i podataka
Organizacijska jedinica
Odsjek za informacijske i komunikacijske znanosti
ECTS bodovi
5
Šifra
181265
Semestri izvođenja
ljetni
Satnica
Predavanja
15
Seminar
15
Vježbe u praktikumu
15

Cilj
Cilj predmeta jest razumijevanje podataka, proces, algoritama i aplikacija u analizi velikih količina podataka (eng. Big Data) u cilju stvaranja novoga znanja. Primijenit će se jezično ovisni i statistički modeli za dubinsku analizu teksta, provesti računalno obilježavanje i analiza podataka. Obrada teksta će se provesti i primjenom programskog jezika Python. Analiza strukturiranih podataka će se izvršiti primjenom programskog jezika R ili odgovarajućeg softvera za analizu podataka. Postupak analitike završava vizualizacijom podataka i analizom moguće primjene u konkretnim situacijama.
Sadržaj
  1. Uvodno predavanje. Računalna obrada jezika (eng. Natural Language Processing)
  2. Korpusi jednojezični i dvojezični/ višejezični. Uloga korpusa, izgradnja, resursi.
  3. Big Data - obilježja, uloga, analiza vrste podataka, kvaliteta podataka. resursi. Vrste korpusa. Prikaz mogućih primjena. Prikupljanje resursa za analizu.
  4. Analiza Big Data prema različitih parametrima, domenama. Ključne riječi, konkordancije, N-grami, liste riječi. Statističke analize nad korpusom. Rad s odabranim alatom: Sketch Engine ili drugi.
  5. Jezična analiza teksta (Corpus Query Language - CQL). Leme, fraze, tagovi. Pretraživanje korpusa. Obilježavanje podataka primjenom odgovarajućih alata.
  6. Programski jezik Python. Analiza značajki tekstualnih podatkovnih skupova (korpusa) i njihova primjena u računalnoj analizi i obradi jezika; analiza procesa opojavničenja tekstualnog podatkovnog skupa (korpusa), tj. procesa svođenja na manje sastavne dijelove (tokene) primjenom skripnog jezika Python.
  7. Programski jezik Python. Analiza procesa korjenovanja (lematizacije), analiza utjecaja visokofrekventnih unigrama na generiranje šuma te evaluacija mogućnosti eliminacije generiranog šuma primjenom skripnog jezika Python.
  8. Programski jezik Python. Analiza mogućnosti primjene računalne leksičko-semantičke mreže i ekstrakcije podataka. Analiza procesa razdjeljivanja tekstualnog podatkovnog skupa (korpusa), tj. procesa pronalaženja osnovnih gradivnih elemenata rečenica primjenom skripnog jezika Python.
  9. Primjena skriptnog jezika u pretraživanju podataka. Analiza procesa POS označavanja tekstualnog podatkovnog skupa primjenom skripnog jezika Python.
  10. Grafički prikaz podataka. Grafičke funkcije, kontrola crtanja. Iscrtavanje histograma. Jednostavnije analize primjenom odabranog programskog jezika. Priprema podataka. Analiza rezultata.
  11. Programski jezik R ili odabrani statistički alat za za statističku analizu strukturiranih podataka (JASP ili dr.). Radno okruženje. Osnovno rukovanje strukturiranim podacima. Unos podataka, brisanje, dohvaćanje. Vrste i izvori podataka. Sumirani podaci. Obilježja podataka. podataka. Uzorci.
  12. Programski jezik R. Pretvorba tipova: as. Čitanje i unos podataka: Liste podatka kao objekti, pristupanje elementima. Pretraživanje liste. Dohvaćanje i čitanje podataka. / Primjena odabranog alata (JASP ili drugi). Proširivanje podataka. Nepotpuni podaci. Primjena nad odabranim setom podataka. Deskriptivna analiza podataka. Uloga uzorka u odabiru vrste obrade podataka.
  13. Programski jezik R ili odabrani statistički alat za za statističku analizu strukturiranih podataka (JASP ili dr.). Pretvaranje od nestrukturiranih do strukturiranih podataka. Analiza strukturiranih podataka primjenom odabrane statističke metode i interpretacija rezultata. Vizualni prikaz podataka.
  14. Projektni rad: samostalno istraživanje nad prikupljenim korpusom primjenom odabranog programskog jezika ili alata.
  15. Projektni rad: Samostalno istraživanje nad prikupljenim korpusom primjenom odabranog programskog jezika ili alata. Analiza rezultata i interpretacija. Uočavanje trendova i osmišljavanje moguće primjene u širem kontekstu.

Ishodi učenja
  1. Primijeniti i analizirati proces, algoritme i aplikacije u analizi velikih količina nestrukturiranih podataka (eng. Big Data) u cilju stvaranja novoga znanja
  2. Klasificirati vrste strukturiranih podataka i primijeniti ih u obradi podataka
  3. Primijeniti alate, tehnike i metode za statističku analizu strukturiranih podataka u kroz odabrani programski paket
  4. Konstruirati algoritme u skriptnom jeziku (Python, R)
  5. Usporediti alate i metode za vizualizaciju podataka
  6. Interpretirati i vrednovati rezultate obrade i vizualizacije podataka
  7. Sintetizirati rezultate istraživanja u procesu ekstrakcije informacija od Big Data do stvaranja novoga znanja
  8. Analizirati i rješavati informatičke potrebe korisnika
  9. Sintetizirati, integrirati i predlagati primjenu informatičkih, informacijskih i logičkih modela u procesu jezičnog inženjeringa, računalne obrade jezika, leksikografije i strojnog i strojno potpomognutog prevođenja
Metode podučavanja
Predavanja, samostalne vježbe/ laboratorijske vježbe, samostalan projektni rad, e-učenje.
Metode ocjenjivanja
Konačnu ocjena čini ukupnost bodova stečenih kro pismenu provjeru znanja, izvršenih zadataka i izvršenog projektog zadatka (istraživanje, prezentacija, izlaganje).

Obavezna literatura
  1. Steven Bird, Ewan Klein, and Edward Loper. Natural Language Processing with Python – Analyzing Text with the Natural Language Toolkit. O'Reilly Media, 2009
  2. Marrara, S., Pejic-Bach, M., Seljan, S., Topalovic, A. FinTech and SMEs - The Italian Case. FinTech as a Disruptive Technology for Financial Institutions, IGI-Global, 2019.
  3. Pejic-Bach, M., Krstic, Z., Seljan, S., Turulija, L. Text Mining for Big Data Analysis in Financial Sector, 2019.
  4. Paradis, Emmanuel. R for Beginners, 2005.
  5. Maindonald, J. H. Using R for Data Analysis and Graphics Introduction, Code and Commentary, 2008.
  6. Provost, F.; Fawcett, T. Data Science for Business: What you need to know about data minig and data-analytic thinking, 2013.
  7. Python https://www.python.org/
  8. Krstić, Ž.; Seljan, S.; Zoroja, J. Visualization of big data text analytics in financial industry: a case study of topic extraction for Italian banks // Proceedings of the ENTRENOVA , 2019. str. 67-75
Dopunska literatura
  1. Zhai, ChengXiang. Statistical Language Models for Information Retrieval A Critical Review. Foundations and Trends, Information Retrieval, Vol. 2, No. 3 (2008) 137–213
  2. Covington, D. Analytics. Data Science, Data Analysis and Predictive Analytics for Business. 5th ed.
  3. Gašpar, A.; Seljan, S. Consistency of Translated Terminology Measured by the Herfindahl-Hirshman Index (HHI). // Lecture Notes in Computer Science (LNCS). (2016)
  4. Tsvetovat, M.; Kouznetsov, A. Social Network Analysis for Startups, O'Reilly, 2011
  5. Seljan, S.; Stančić, H.; Dunđer, I. Extracting Terminology by Language Independent Methods. Forum Translationswissenschaft. Translation Studies and Translation Practice. Peter Lang GmbH, 2017. Str. 141-147
  6. Dunđer, I.; Pavlovski, M.; Seljan, S. Computational analysis of a literary work in the context of its spatiality // Trends and innovations in information systems and technologies: vol.1, Springer, 2020. str. 252-26

Obavezan predmet na studijima
  1. Informacijske znanosti, sveučilišni diplomski jednopredmetni studij
Izborni predmet na studijima
  1. Informacijske znanosti, sveučilišni diplomski jednopredmetni studij
  2. Informacijske znanosti, sveučilišni diplomski dvopredmetni studij