Naziv
Uvod u obradu prirodnog jezika
Organizacijska jedinica
Odsjek za informacijske i komunikacijske znanosti
ECTS
4
Šifra
266144
Semestri
ljetni
Satnica
Predavanja
30
Laboratorijske vježbe
30

Cilj
Cilj kolegija je dati studentima osnovne smjernice računalne obrade prirodnog jezika. Studenti će se upoznati sa morfološkom analizom i generiranjem, sintaktičkom analizom i značenjskom interpretacijom jezika. Kroz niz tjednih tema dobit će uvid u raznolikost područja i širinu primjene metoda obrade prirodnog jezika. Praktičnim radom na tjednim zadatcima tijekom semestra ovladat će konkretnom primjenom teorijskog znanja da bi na kraju semestra mogli razlikovati i vrednovati strukturalne značajke tekstova na prirodnom jeziku i načela njihove računalne obrade kako bi se dobile lingvističke (morfološke, sintaktičke, semantičke) informacije.
Sadržaj
  1. Uvodno predavanje o kolegiju. Ciljevi obrade prirodnog jezika. Povijest. Pregled područja koje je po svojoj prirodi interdisciplinarno.
  2. Fonetika i fonologija. Razine jezične analize. Prva razina – fonetika. Odnos fonetike i fonologije. Definicija fonema, alofona, podjela glasova po načinu tvorbe, zvučnosti i mjestu tvorbe. IPA. Kako nastaje govor, koartikulacija, obilježja govora, zvučni valovi, oscilogram, osnovna frekvencija, spektrogram. Računalna obrada govora: aplikacije za automatsko prepoznavanje govora i automatsku sintezu teksta u govor.
  3. Odnos pisma i jezika. Tipovi pisma i faze razvoja pisma, fonološki i nefonološki sustavi, odnos glasa i slova u pismima, usporedba pisama, ASCII kod, UNICODE.
  4. Regularni izrazi u obradi prirodnog jezika. Napredno pretraživanje interneta korištenjem lingivističkih obilježja.
  5. Osnovni pojmovi regularnih izraza: unarni, binarni operatori, tvorba regularnih izraza, alati s regularnim izrazima, regularni izrazi u Wordu.
  6. Pretraživanje korpusa regularnim izrazima.
  7. Računalna morfologija. Osnove morfologije hrvatskog i engleskog jezika. Definicija morfologije, morfema, alomorfa, afiksa, infiksa, tvorbeni i oblični morfemi u hrvatskom i engleskom jeziku.
  8. Derivacijska i oblična morfologija u hrvatskom i engleskom jeziku na primjeru imenica, glagola i pridjeva. Morfološka obrada: računalna analiza i računalno generiranje oblika.
  9. Morfološki analizatori i generatori oblika, konačni automati, konačni pretvarači.
  10. Računalna sintaksa: osnovni pojmovi računalne sintakse: vrste riječi, otvoreni i zatvoreni vokabular, kategorije sintagmi i oznake vrsta riječi (part of speech), rečenične kategorije.
  11. Sintaktička stabla i parsanje, banke stabala.
  12. Uvod u računalne gramatike. Regularna, beskontekstna, kontekstna, gramatika neograničenih produkcija. Bezokolinska gramatika: sastavnice, završne i nezavršne oznake, pravila.
  13. Provjernici pravopisa i gramatike. Način funkcioniranja i problemi provjernika pravopisa i gramatike. Interaktivni i automatski provjernici, otkrivanje pogrešaka i ispravak pogrešaka, tehnike provjere pravopisa: pronalaženje nepostojećih riječi, ispravak pogrešno napisanih riječi bez konteksta, ispravljanje riječi s obzirom na kontekst i provjera gramatičke ispravnosti.
  14. Uvod u semantiku prirodnog jezika. Kompozicijska semantika, sematičke uloge, teorija dubinskih padeža, padežni okviri glagola.
  15. Sintaktički i semantički opis padežnih okvira u hrvatskom jeziku.

Ishodi učenja
  1. Prepoznati i nabrojati vodeće trendove u razvoju računalnih tehnologija te sustava za obradu prirodnog jezika
  2. Razlikovati terminologiju računalne lingvistike i obrade prirodnog jezika
  3. Demonstrirati nacrt sustava u svakom od područja obrade prirodnoga jezika (računalna fonetika i fonologija, morfologija, sintaksa i semantika)
  4. Koristiti odgovarajuće aplikacije koje ilustriraju svako od područja obrade prirodnoga jezika
  5. Pretraživati računalne korpuse korištenjem regularnih izraza
  6. Koristiti s razumijevanjem automatske provjernike pravopisa i gramatike te vrednovati te sustave
  7. Primijeniti znanja iz različitih područja računalne obrade jezika
  8. Prepoznati i primijeniti rezultate istraživanja iz polja informacijskih i komunikacijskih znanosti
  9. Primijeniti i integrirati znanja i algoritme u izradi programskih rješenja
  10. Interpretirati i koristiti stručnu terminologiju na hrvatskom i engleskom jeziku
  11. Primijeniti znanja i algoritme u izradi programskih rješenja
Metode podučavanja
Predavanja, vježbe
Metode ocjenjivanja
Vježbe se ocjenjuju na sljedeći način:
0% = Više od 6 propuštenih vježbi.
10% = Više od 5 propuštenih vježbi.
20% = Više od 4 propuštene vježbe.
30% = Više od 3 propuštene vježbe.
40% = Više od 2 propuštene vježbe.
50% = Redovito pohađa vježbe, predao/la svih 15 vježbi na kolegiju



Završni pismeni ispit se ocjenjuju na sljedeći način
manje od 50% točnih odgovora = 0% ocjene
od 50% do 55% = 10% ocjene
od 56% do 61% = 15% ocjene
od 62% do 67% = 20% ocjene
od 68% do 73% = 25% ocjene
od 74% do 79% = 30% ocjene
od 80% do 84% = 35% ocjene
od 85% do 89% = 40% ocjene
od 90% do 94% = 45% ocjene
od 95% do 100% = 50% ocjene


Konačna se ocjena dobiva na sljedeći način:
89 − 100% 5 (izvrstan)
76 − 88,9% 4 (vrlo dobar)
63 − 75,9% 3 (dobar)
50 − 62,9% 2 (dovoljan)

Obavezna literatura
  1. Mikelić Preradović, Nives; Berać, Monika; Boras, Damir. Learner Corpus of Croatian as a Second and Foreign Language // Multidisciplinary Approaches to Multilingualism / Cergol Kovačević, Kristina ; Udier, Sanda Lucija (ur.). Frankfurt am Main, Germany : Peter Lang, 2015. Str. 107-12
  2. Mikelić Preradović, Nives. Pristupi izradi strojnog tezaurusa za hrvatski jezik / doktorska disertacija. Zagreb: Filozofski fakultet, 2008.
  3. Tepeš Golubić, Lidija; Mikelić Preradović, Nives; Boras, Damir. Semi-automatic detection of germanisms in Croatian newspaper texts // Human Language Technologies as a Challenge for Computer Science and Linguistics / Vetulani, Zygmunt ; Uszkoreit, Hans (ur.). Poznan, Poland: Fundacja Uniwersytetu im. A. Mickiewicza, 2013. Str. 173-177.
  4. Ljubešić, Nikola; Esplà-Gomis, Miquel; Klubička, Filip; Mikelić Preradović, Nives. Predicting Inflectional Paradigms and Lemmata of Unknown Words for Semi-automatic Expansion of Morphological Lexicons. Proceedings of Recent Advances in Natural Language Processing (RANLP 2015).Hissar, Bulgaria: Association for Computational Linguistics, 2015, str. 379-387.
  5. Šojat, Krešimir; Mikelić Preradović, Nives; Tadić, Marko. Generation of Verbal Stems in Derivationally Rich Language // Proceedings of the Eigth International Conference on Language Resources and Evaluation (LREC'12) / Calzolari, Nicoletta ; Choukri, Khalid ; Declerck, Thierry ; Ugur Dogan, Mehmet ; Maegaard, Bente ; Mariani, Joseph ; Odijk, Jan ; Piperidis, Stelios (ur.). Istanbul: European Language Resources Association (ELRA), 2012.
  6. Ljubesic, Nikola; Mikelić, Nives; Boras, Damir. Language identification: how to distinguish similar languages? // Proceedings of the 29th International Conference on Information Technology Interfaces / Budin, Leo; Lužar-Stiffler, Vesna ; Bekić, Zoran ; Hljuz Dobrić, Vesna (eds). Zagreb: SRCE, 2007.
Dopunska literatura
  1. Marko Tadić. Jezične tehnologije i hrvatski jezik. Exlibris, Zagreb 2003.
  2. Marko Tadic. Problemi računalne obrade imeničnih oblika u hrvatskome. Suvremena lingvistika 34, (1992), str. 301-308.
  3. Marko Tadic. Building the Croatian Morphological Lexicon. Proceedings of the EACL2003 Workshop on Morphological Processing of Slavic Languages (Budimpešta 2003), ACL, str. 41-46.
  4. Robert Dale, Hermann Moisl and Harold Somers, eds. Handbook of Natural Langauge Processing. MIT Press, 2000.
  5. Lucja M. Iwanska and Stuart C. Shapiro, eds. Natural Language Processing and Knowledge Representation. MIT Press, 2000.
  6. Roland R. Hausser. Foundations of Computational Linguistics: Human-Computer Communication in Natural Language. Springer Verlag, 2001.
  7. Daniel Jurafsky & James. H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Prentice Hall, NJ, 2000.
  8. Tepeš, B. Računarska lingvistika, Radovi Zavoda za informacijske studije, Knjiga 9., Zagreb, 2001.
  9. Roland R. Hausser. Foundations of Computational Linguistics: Human-Computer Communication in Natural Language. Springer Verlag, 2001.

Izborni predmet na studijima
Novi i reformirani studiji
  1. Informacijske znanosti, sveučilišni prijediplomski jednopredmetni studij, 2. semestar
  2. Informacijske znanosti, sveučilišni prijediplomski dvopredmetni studij, 2. semestar
  3. Turkologija, sveučilišni prijediplomski dvopredmetni studij, 2. semestar
Fakultetska ponuda
  • Prijediplomski studij: Ljetni semestar