Naziv
Pretraživanje teksta
Organizacijska jedinica
Združeni diplomski studij Digitalna lingvistika
ECTS
3
Šifra
255306
Semestri
ljetni
Satnica
Predavanja
15
Seminar
15

Cilj
Kolegij daje prikaz osnovnih zadataka obrade prirodnog jezika s primjenom u pretraživanju informacija, kao što su opojavničenje,
izrada invertnog indeksa, TF-IDF težinsko mjerenje, vektorizacija dokumenta, kosinusna sličnost, korjenovanje i lematizacija.
Studenti se upoznaju s dvije paradigme pretraživanja informacija: modelom vektorskog prostora i vjerojatnosnim modelom
pretraživanja informacija. Naposljetku, studenti savladavaju osnove nadziranog strojnog učenja te njegove evaluacije na zadatku
klasifikacije dokumenata.
Sadržaj
  1. Uvod u pretraživanje obavijesti i obradu prirodnog jezika.
  2. Predobrada teksta. Opojavničenje.
  3. Obrada jezika: morfološka normalizacija (korjenovanje).
  4. Obrada jezika: morfosintaktičko označavanje i lematizacija.
  5. Osnovni koncepti: prikaz teksta, popis indeksnih termina.
  6. Modeli pretraživanja. Invertni indeks.
  7. Booleovo pretraživanje i višerječni upiti.
  8. Model vektorskog prostora.
  9. Sličnosti tekstova. Kosinusna sličnost i TFIDF mjera.
  10. Grupiranje dokumenta i termina.
  11. Vjerojatnosni model pretraživanja informacija.
  12. Klasifikacija tekstova i nadzirano strojno učenje.
  13. Primjena naivnog Bayesovog klasifikatora u klasifikaciji dokumenata.
  14. Evaluacija i usporedba više skupova postavki.
  15. Završni izvještaj

Ishodi učenja
  1. Opisati postupke obrade jezika poput morfološke normalizacije (korjenovanja i lematizacije) u svrhu procjene sličnosti tekstova.
  2. Opisati paradigme pretraživanja informacija: model vektorskog prostora te vjerojatnosni model pretraživanja informacija.
  3. Opisati postupke za klasifikaciju dokumenata.
  4. Primijeniti postupke za procjenu sličnosti tekstova.
  5. Primijeniti paradigmu nadziranog strojnog učenja.
Metode podučavanja
predavanja, vježbe, mješovito e-učenje, samostalni zadaci
Metode ocjenjivanja
pohađanje nastave, kolokvij, istraživanje, referat, praktični rad, usmeni ispit

Obavezna literatura
  1. Ignatow, G., & Mihalcea, R. (2017). Text mining: A Guidebook for the Social Sciences Thousand Oaks, CA: SAGE Publications, Inc doi: 10.4135/9781483399782 (selected chapters)
  2. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008
  3. Lauc, Tomislava. PRETRAŽIVANJE OBAVIJESTI: pristupi automatskom indeksiranju dokumenata // Modeli znanja i obrada prirodnoga jezika / Tuđman, Miroslav (ur.). Zagreb: Zavod za informacijske studije, Filozofski fakultet, 2003. str. 169-196
Dopunska literatura
  1. G. Miner, J. Elder IV, T. Hill, R. Nisbet, D. Delen, A. Fast (2012.), Practical Text Mining and Statistical Analysis for Non-structured Text Data Applications, Academic Press

Izborni predmet na studijima
  1. Digitalna lingvistika, sveučilišni diplomski jednopredmetni studij, 2. semestar