Naziv
Pretraživanje obavijesti i obrada prirodnog jezika
Organizacijska jedinica
Odsjek za informacijske i komunikacijske znanosti
ECTS bodovi
3
Šifra
69749
Semestri izvođenja
zimski
Jezik izvođenja
hrvatski
Satnica
Predavanja
15
Vježbe u praktikumu
15

Cilj
Studenti savladavaju osnovne zadatke obrade prirodnog jezika s primjenom u pretraživanju informacija kao što su opojavničenje, izrada invertnog indeksa, TF-IDF težinsko faktoriranje, vektorizacija dokumenta, kosinusna sličnost između vektora, korjenovanje i lematizacija. Upoznaju se s dvije paradigme pretraživanja informacija: modelom vektorskog prostora i vjerojatnosnim modelom pretraživanja informacija. Konačno, studenti savladavaju osnove nadziranog strojnog učenja te njegove evaluacije na zadatku klasifikacije dokumenata.
Sadržaj
  1. Uvod u pretraživanje obavijesti i obradu prirodnog jezika.
  2. Osnovni koncepti: opojavničenje, popisivanje indeksnih termina.
  3. Složeniji zadatci obrade jezika: morfološka normalizacija (korjenovanja i lematizacije)
  4. Procjena sličnosti dokumenata i modeli pretraživanja.
  5. Invertni indeks.
  6. Booleovo pretraživanje i višerječni upiti.
  7. Model vektorskog prostora i težinsko faktoriranje termina.
  8. Grupiranje dokumenata i termina.
  9. Mjerenja sličnosti tekstova.
  10. Kosinusna sličnost i TFIDF mjera.
  11. Vjerojatnosni model pretraživanja informacija i evaluacija sustava.
  12. Klasifikacija tekstova i nadzirano strojno učenje.
  13. Naivni Bayesov klasifikator.
  14. Primjena multnomijalnog naivnog Bayesovog klasifikatora na klasifikaciju dokumenata
  15. Evaluacija i usporedba više skupova postavki.

Ishodi učenja
  1. Opisati osnovne koncepte prikaza teksta poput opojavničenja, indeksiranja i težinskog faktoriranja
  2. Opisati postupke obrade jezika poput morfološke normalizacije (korjenovanja i lematizacije) u svrhu procjene sličnosti tekstova.
  3. Opisati paradigme pretraživanja informacija,: model vektorskog prostora te vjerojatnosni model pretraživanja informacija.
  4. Opisati postupke za klasifikaciju dokumenata.
  5. Primijeniti postupke za prikaz teksta i procjenu sličnosti tekstova.
  6. Primijeniti paradigmu nadziranog strojnog učenja (multnomijalnog naivnog Bayesovog klasifikatora).
Metode podučavanja
Predavanja i vježbe.
Metode ocjenjivanja
Praktičan rad na tjednim zadatcima tijekom semestra i završni pismeni i usmeni ispit.

Obavezna literatura
  1. https://omega.ffzg.hr/course/view.php?id=37
Dopunska literatura

Obavezan predmet na studijima
  1. Informacijske znanosti, sveučilišni preddiplomski jednopredmetni studij, 5. semestar
Izborni predmet na studijima
  1. Informacijske znanosti, sveučilišni preddiplomski dvopredmetni studij, 5. semestar