Naziv
Računalna analiza teksta i podataka
Organizacijska jedinica
Odsjek za informacijske i komunikacijske znanosti
ECTS
5
Šifra
181265
Semestri
ljetni
Satnica
Predavanja
15
Seminar
15
Vježbe u praktikumu
15

Cilj
Cilj predmeta jest razumijevanje podataka, proces, algoritama i aplikacija u analizi velikih količina podataka (eng. Big Data) u cilju stvaranja novoga znanja. Primijenit će se jezično ovisni i statistički modeli za dubinsku analizu teksta, provesti računalno obilježavanje i analiza podataka. Obrada teksta će se provesti i primjenom programskog jezika Python. Analiza strukturiranih podataka će se izvršiti primjenom programskog jezika R ili odgovarajućeg softvera za analizu podataka. Postupak analitike završava vizualizacijom podataka i analizom moguće primjene u konkretnim situacijama.
Sadržaj
  1. Uvodno predavanje. Računalna obrada jezika (eng. Natural Language Processing) i primjena.
  2. Big Data - obilježja, uloga, analiza vrste podataka, kvaliteta podataka. Rad u programskom jeziku R. Vrste podataka. Učitavanje podataka, klase, pretvorba tipova podataka. Vektorske funkcije.
  3. KorpusI: vrste i uloga korpusa. Korpusi jednojezični i dvojezični/ višejezični. Funkcije za rad sa stringovima u programskom jeziku R. Tokenizacija korpusa. Unigrami. Zaustavne riječi.
  4. Dubinska analiza teksta. Dohvaćanje leksikona. Pristup djelima javne domene. Vizualizacija informacija nad korpusom u programskom jeziku R.
  5. Regularni izrazi nad korpusom. Pretraživanje korpusa.
  6. Analiza društvenih mreža. Računalna reprezentacija. Struktura mreže. Vrste grafova: usmjereni, neusmjereni, mještoviti. Rad u odabranom programskom alatu. Instalacija, upoznavanje sa sučeljem, osnovne funkcije. Putanja. Gustoća grafa.
  7. Matrica susjedstava i lista susjedstava. Težinski graf. Informacijske mjere - mjere centralnosti. Ulazna i izlazna centralnost, centralnost blizine, stupanj međučpovezanosti. Rad na vlastitim podacima primjenom odabranog alata za analizu mreže.
  8. Informacijske mjere: Eigenvektor centralnost, Page rank. Primjena analize društvenih mreža u konkretnin situavijama. Rad na javno dostupnim podacima primjenom odabranog alata.
  9. Programski jezik Python. Analiza značajki tekstualnih podatkovnih skupova (korpusa) i njihova primjena u računalnoj analizi i obradi jezika; analiza procesa opojavničenja tekstualnog podatkovnog skupa (korpusa), tj. procesa svođenja na manje sastavne dijelove (tokene) primjenom skripnog jezika Python.
  10. Programski jezik Python. Analiza procesa korjenovanja (lematizacije), analiza utjecaja visokofrekventnih unigrama na generiranje šuma te evaluacija mogućnosti eliminacije generiranog šuma primjenom skripnog jezika Python.
  11. Programski jezik Python. Analiza mogućnosti primjene računalne leksičko-semantičke mreže i ekstrakcije podataka.
  12. Analiza procesa razdjeljivanja tekstualnog podatkovnog skupa (korpusa), tj. procesa pronalaženja osnovnih gradivnih elemenata rečenica primjenom skripnog jezika Python. Vizualizacija.
  13. Primjena skriptnog jezika u pretraživanju podataka. Analiza procesa POS označavanja tekstualnog podatkovnog skupa primjenom skripnog jezika Python.
  14. Projektni rad: samostalno istraživanje nad prikupljenim podacima primjenom odabranog programskog jezika ili alata.
  15. Projektni rad: Samostalno istraživanje nad prikupljenim korpusom primjenom odabranog programskog jezika ili alata. Analiza rezultata i interpretacija. Uočavanje trendova i osmišljavanje moguće primjene u širem kontekstu.

Ishodi učenja
  1. Objasniti pojmove vezane uz računalnu analizu teksta i podataka: uloga velikih količina podataka u stvaranju novoga znanja, primjene računalne obrade jezika, uloga, vrste i strauktura korpusa kao izvora informacija, informacijske mjere i struktura društvene mreže, dubinska analiza teksta.
  2. Primijeniti tehnike i alate za dohvaćanje, analizu korpusa, analizu društvenih mreža i vizualizaciju podataka.
  3. Konstruirati algoritme u skriptnom jeziku (Python, R)
  4. Identificirati relevantne strukturirane i nestrukturirane podatke kao izvore informacija radi donošenje informiranih odluka.
  5. Usporediti alate i metode za vizualizaciju podataka, interpretirati i vrednovati rezultate obrade i vizualizacije podataka
  6. Sintetizirati rezultate istraživanja u procesu ekstrakcije informacija od velikih količina podataka do stvaranja novoga znanja
Metode podučavanja
Predavanja, samostalne vježbe/ laboratorijske vježbe, projektni rad, e-učenje.
Metode ocjenjivanja
Konačnu ocjena čini ukupnost bodova stečenih kroz pismenu provjeru znanja, izvršenih zadataka i izvršenog projektog zadatka (istraživanje, prezentacija, izlaganje).

Obavezna literatura
  1. Steven Bird, Ewan Klein, and Edward Loper. Natural Language Processing with Python – Analyzing Text with the Natural Language Toolkit. O'Reilly Media, 2009
  2. Marrara, S., Pejic-Bach, M., Seljan, S., Topalovic, A. FinTech and SMEs - The Italian Case. FinTech as a Disruptive Technology for Financial Institutions, IGI-Global, 2019.
  3. Pejic-Bach, M., Krstic, Z., Seljan, S., Turulija, L. Text Mining for Big Data Analysis in Financial Sector, 2019.
  4. Paradis, Emmanuel. R for Beginners, 2005.
  5. Maindonald, J. H. Using R for Data Analysis and Graphics Introduction, Code and Commentary, 2008.
  6. Provost, F.; Fawcett, T. Data Science for Business: What you need to know about data minig and data-analytic thinking, 2013.
  7. Python https://www.python.org/
  8. Krstić, Ž.; Seljan, S.; Zoroja, J. Visualization of big data text analytics in financial industry: a case study of topic extraction for Italian banks // Proceedings of the ENTRENOVA , 2019. str. 67-75
Dopunska literatura
  1. Zhai, ChengXiang. Statistical Language Models for Information Retrieval A Critical Review. Foundations and Trends, Information Retrieval, Vol. 2, No. 3 (2008) 137–213
  2. Covington, D. Analytics. Data Science, Data Analysis and Predictive Analytics for Business. 5th ed.
  3. Gašpar, A.; Seljan, S. Consistency of Translated Terminology Measured by the Herfindahl-Hirshman Index (HHI). // Lecture Notes in Computer Science (LNCS). (2016)
  4. Tsvetovat, M.; Kouznetsov, A. Social Network Analysis for Startups, O'Reilly, 2011
  5. Seljan, S.; Stančić, H.; Dunđer, I. Extracting Terminology by Language Independent Methods. Forum Translationswissenschaft. Translation Studies and Translation Practice. Peter Lang GmbH, 2017. Str. 141-147
  6. Dunđer, I.; Pavlovski, M.; Seljan, S. Computational analysis of a literary work in the context of its spatiality // Trends and innovations in information systems and technologies: vol.1, Springer, 2020. str. 252-26

Obavezan predmet na studijima
Stari studiji
  1. Informacijske znanosti, sveučilišni diplomski jednopredmetni studij
Izborni predmet na studijima
Stari studiji
  1. Informacijske znanosti, sveučilišni diplomski jednopredmetni studij
  2. Informacijske znanosti, sveučilišni diplomski dvopredmetni studij