Naziv
Uvod u obradu prirodnog jezika
Organizacijska jedinica
Odsjek za informacijske i komunikacijske znanosti
ECTS bodovi
6
Šifra
35933
Semestri izvođenja
ljetni
Jezik izvođenja
hrvatski
Satnica
Predavanja
30
Laboratorijske vježbe
30

Cilj
Cilj kolegija je dati studentima osnovne smjernice računalne obrade prirodnog jezika. Studenti će se upoznati sa morfološkom analizom i generiranjem, sintaktičkom analizom i značenjskom interpretacijom jezika. Kroz niz tjednih tema dobit će uvid u raznolikost područja i širinu primjene metoda obrade prirodnog jezika. Praktičnim radom na tjednim zadatcima tijekom semestra ovladat će konkretnom primjenom teorijskog znanja da bi na kraju semestra mogli razlikovati i vrednovati strukturalne značajke tekstova na prirodnom jeziku i načela njihove računalne obrade kako bi se dobile lingvističke (morfološke, sintaktičke, semantičke) informacije.
Sadržaj
  1. Uvodno predavanje o kolegiju. Ciljevi obrade prirodnog jezika. Povijest. Pregled područja koje je po svojoj prirodi interdisciplinarn.
  2. Fonetika i fonologija. Razine jezične analize. Prva razina – fonetika. Odnos fonetike i fonologije. Definicija fonema, alofona, podjela glasova po načinu tvorbe, zvučnosti i mjestu tvorbe. IPA. Kako nastaje govor, koartikulacija, obilježja govora, zvučni valovi, oscilogram, osnovna frekvencija, spektrogram. Računalna obrada govora: aplikacije za automatsko prepoznavanje govora i automatsku sintezu teksta u govor.
  3. Odnos pisma i jezika. Tipovi pisma i faze razvoja pisma, fonološki i nefonološki sustavi, odnos glasa i slova u pismima, usporedba pisama, ASCII kod, UNICODE.
  4. Regularni izrazi u obradi prirodnog jezika. Napredno pretraživanje interneta korištenjem lingivističkih obilježja.
  5. Osnovni pojmovi regularnih izraza: unarni, binarni operatori, tvorba regularnih izraza, alati s regularnim izrazima, regularni izrazi u Wordu.
  6. Pretraživanje korpusa regularnim izrazima.
  7. Računalna morfologija. Osnove morfologije hrvatskog i engleskog jezika. Definicija morfologije, morfema, alomorfa, afiksa, infiksa, tvorbeni i oblični morfemi u hrvatskom i engleskom jeziku.
  8. Derivacijska i oblična morfologija u hrvatskom i engleskom jeziku na primjeru imenica, glagola i pridjeva. Morfološka obrada: računalna analiza i računalno generiranje oblika.
  9. Morfološki analizatori i generatori oblika, konačni automati, konačni pretvarači.
  10. Računalna sintaksa: osnovni pojmovi računalne sintakse: vrste riječi, otvoreni i zatvoreni vokabular, kategorije sintagmi i oznake vrsta riječi (part of speech), rečenične kategorije.
  11. Sintaktička stabla i parsanje, banke stabala.
  12. Uvod u računalne gramatike. Regularna, beskontekstna, kontekstna, gramatika neograničenih produkcija. Bezokolinska gramatika: sastavnice, završne i nezavršne oznake, pravila.
  13. Provjernici pravopisa i gramatike. Način funkcioniranja i problemi provjernika pravopisa i gramatike. Interaktivni i automatski provjernici, otkrivanje pogrešaka i ispravak pogrešaka, tehnike provjere pravopisa: pronalaženje nepostojećih riječi, ispravak pogrešno napisanih riječi bez konteksta, ispravljanje riječi s obzirom na kontekst i provjera gramatičke ispravnosti.
  14. Uvod u semantiku prirodnog jezika. Kompozicijska semantika, sematičke uloge, teorija dubinskih padeža, padežni okviri glagola.
  15. Sintaktički i semantički opis padežnih okvira u hrvatskom jeziku.

Ishodi učenja
  1. Prepoznati i nabrojati vodeće trendove u razvoju računalnih tehnologija te sustava za obradu prirodnog jezika
  2. Razlikovati terminologiju računalne lingvistike i obrade prirodnog jezika
  3. Demonstrirati nacrt sustava u svakom od područja obrade prirodnoga jezika (računalna fonetika i fonologija, morfologija, sintaksa i semantika)
  4. Koristiti odgovarajuće aplikacije koje ilustriraju svako od područja obrade prirodnoga jezika
  5. Pretraživati računalne korpuse korištenjem regularnih izraza
  6. Koristiti (s razumijevanjem) automatske provjernike pravopisa i gramatike te vrednovati te sustave
Metode podučavanja
Predavanja, vježbe
Metode ocjenjivanja
Vježbe se ocjenjuju na sljedeći način: 0% = Više od 6 propuštenih vježbi. 10% = Više od 5 propuštenih vježbi. 20% = Više od 4 propuštene vježbe. 30% = Više od 3 propuštene vježbe. 40% = Više od 2 propuštene vježbe. 50% = Redovito pohađa vježbe, predao/la svih 15 vježbi na kolegiju Završni pismeni ispit se ocjenjuju na sljedeći način manje od 50% točnih odgovora = 0% ocjene od 50% do 55% = 10% ocjene od 56% do 61% = 15% ocjene od 62% do 67% = 20% ocjene od 68% do 73% = 25% ocjene od 74% do 79% = 30% ocjene od 80% do 84% = 35% ocjene od 85% do 89% = 40% ocjene od 90% do 94% = 45% ocjene od 95% do 100% = 50% ocjene Konačna se ocjena dobiva na sljedeći način: 89 − 100% 5 (izvrstan) 76 − 88,9% 4 (vrlo dobar) 63 − 75,9% 3 (dobar) 50 − 62,9% 2 (dovoljan)

Obavezna literatura
  1. Mikelić Preradović, Nives; Berać, Monika; Boras, Damir. Learner Corpus of Croatian as a Second and Foreign Language // Multidisciplinary Approaches to Multilingualism / Cergol Kovačević, Kristina ; Udier, Sanda Lucija (ur.). Frankfurt am Main, Germany : Peter Lang, 2015. Str. 107-12
  2. Mikelić Preradović, Nives. Pristupi izradi strojnog tezaurusa za hrvatski jezik / doktorska disertacija. Zagreb: Filozofski fakultet, 2008.
  3. Tepeš Golubić, Lidija; Mikelić Preradović, Nives; Boras, Damir. Semi-automatic detection of germanisms in Croatian newspaper texts // Human Language Technologies as a Challenge for Computer Science and Linguistics / Vetulani, Zygmunt ; Uszkoreit, Hans (ur.). Poznan, Poland: Fundacja Uniwersytetu im. A. Mickiewicza, 2013. Str. 173-177.
  4. Ljubešić, Nikola; Esplà-Gomis, Miquel; Klubička, Filip; Mikelić Preradović, Nives. Predicting Inflectional Paradigms and Lemmata of Unknown Words for Semi-automatic Expansion of Morphological Lexicons. Proceedings of Recent Advances in Natural Language Processing (RANLP 2015).Hissar, Bulgaria: Association for Computational Linguistics, 2015, str. 379-387.
  5. Šojat, Krešimir; Mikelić Preradović, Nives; Tadić, Marko. Generation of Verbal Stems in Derivationally Rich Language // Proceedings of the Eigth International Conference on Language Resources and Evaluation (LREC'12) / Calzolari, Nicoletta ; Choukri, Khalid ; Declerck, Thierry ; Ugur Dogan, Mehmet ; Maegaard, Bente ; Mariani, Joseph ; Odijk, Jan ; Piperidis, Stelios (ur.). Istanbul: European Language Resources Association (ELRA), 2012.
  6. Ljubesic, Nikola; Mikelić, Nives; Boras, Damir. Language identification: how to distinguish similar languages? // Proceedings of the 29th International Conference on Information Technology Interfaces / Budin, Leo; Lužar-Stiffler, Vesna ; Bekić, Zoran ; Hljuz Dobrić, Vesna (eds). Zagreb: SRCE, 2007.
Dopunska literatura
  1. Marko Tadić. Jezične tehnologije i hrvatski jezik. Exlibris, Zagreb 2003.
  2. Marko Tadic. Problemi računalne obrade imeničnih oblika u hrvatskome. Suvremena lingvistika 34, (1992), str. 301-308.
  3. Marko Tadic. Building the Croatian Morphological Lexicon. Proceedings of the EACL2003 Workshop on Morphological Processing of Slavic Languages (Budimpešta 2003), ACL, str. 41-46.
  4. Robert Dale, Hermann Moisl and Harold Somers, eds. Handbook of Natural Langauge Processing. MIT Press, 2000.
  5. Lucja M. Iwanska and Stuart C. Shapiro, eds. Natural Language Processing and Knowledge Representation. MIT Press, 2000.
  6. Roland R. Hausser. Foundations of Computational Linguistics: Human-Computer Communication in Natural Language. Springer Verlag, 2001.
  7. Daniel Jurafsky & James. H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Prentice Hall, NJ, 2000.
  8. Tepeš, B. Računarska lingvistika, Radovi Zavoda za informacijske studije, Knjiga 9., Zagreb, 2001.
  9. Roland R. Hausser. Foundations of Computational Linguistics: Human-Computer Communication in Natural Language. Springer Verlag, 2001.

Izborni predmet na studijima
  1. Informacijske znanosti, sveučilišni preddiplomski jednopredmetni studij, 2. semestar
  2. Informacijske znanosti, sveučilišni preddiplomski dvopredmetni studij, 2. semestar