Naziv
Pretraživanje obavijesti i obrada prirodnog jezika
Organizacijska jedinica
Odsjek za informacijske i komunikacijske znanosti
ECTS
3
Šifra
69749
Semestri
zimski
Satnica
Predavanja
15
Vježbe u praktikumu
15

Cilj
Kolegij daje prikaz osnovnih zadataka obrade prirodnog jezika s primjenom u pretraživanju informacija, kao što su opojavničenje, izrada invertnog indeksa, TF-IDF težinsko faktoriranje, vektorizacija dokumenta, kosinusna sličnost, korjenovanje i lematizacija. Studenti se upoznaju s dvije paradigme pretraživanja informacija: modelom vektorskog prostora i vjerojatnosnim modelom pretraživanja informacija. Naposljetku, studenti savladavaju osnove nadziranog strojnog učenja te njegove evaluacije na zadatku klasifikacije dokumenata.
Sadržaj
  1. Uvod u pretraživanje obavijesti i obradu prirodnog jezika.
  2. Predobrada teksta. Opojavničenje.
  3. Obrada jezika: morfološka normalizacija (korjenovanje)
  4. Obrada jezika: morfosintaktičko označavanje i lematizacija
  5. Osnovni koncepti: prikaz teksta, popis indeksnih termina.
  6. Modeli pretraživanja. Invertni indeks.
  7. Booleovo pretraživanje i višerječni upiti.
  8. Model vektorskog prostora.
  9. Sličnosti tekstova. Kosinusna sličnost i TFIDF mjera.
  10. Grupiranje tekstova i termina.
  11. Vjerojatnosni model pretraživanja informacija.
  12. Klasifikacija tekstova i nadzirano strojno učenje.
  13. Primjena naivnog Bayesovog klasifikatora u klasifikaciji dokumenata.
  14. Evaluacija i usporedba više skupova postavki.
  15. Završni izvještaj.

Ishodi učenja
  1. Objasniti osnovne koncepte prikaza teksta poput opojavničenja, indeksiranja i težinskog faktoriranja termina.
  2. Opisati postupke obrade jezika poput morfološke normalizacije (korjenovanja i lematizacije) u svrhu procjene sličnosti tekstova.
  3. Opisati paradigme pretraživanja informacija: model vektorskog prostora te vjerojatnosni model pretraživanja informacija.
  4. Opisati postupke za klasifikaciju dokumenata.
  5. Primijeniti postupke za procjenu sličnosti tekstova.
  6. Primijeniti paradigmu nadziranog strojnog učenja (naivnog Bayesovog klasifikatora).
Metode podučavanja
Predavanja i vježbe.
Metode ocjenjivanja
Praktičan rad na tjednim zadatcima tijekom semestra i završni rad.

Obavezna literatura
  1. https://omega.ffzg.hr/course/view.php?id=37
Dopunska literatura

Obavezan predmet na studijima
Stari studiji
  1. Informacijske znanosti, sveučilišni prijediplomski jednopredmetni studij, 5. semestar
Izborni predmet na studijima
Stari studiji
  1. Informacijske znanosti, sveučilišni prijediplomski dvopredmetni studij, 5. semestar