Naziv
Jezični inženjering za digitalne lingviste
Organizacijska jedinica
Združeni diplomski studij Digitalna lingvistika
ECTS
6
Šifra
255304
Semestri
zimski
Satnica
Predavanja
15
Seminar
15
Auditorne vježbe
30

Cilj
Cilj predmeta je podučiti studente razlikovanju jezičnih alata i jezičnih resursa. Studenti će se upoznati s karakteristikama jezičnih
alata na glasovnoj/fonemskoj/grafemskoj razini, razini riječi, sintaktičkoj razini, semantičkoj razini te pragmatičkoj razini te posebice
sa složenim komercijalnim alatima obrade prirodnog jezika. Detaljnije će se upoznati i s jezičnim resursima za hrvatski jezik
(računalni korpusi i valencijski leksikon). Nadalje, cilj kolegija je pružiti studentima teoretsko i praktično znanje u oblikovanju jezičnog
resursa. Tijekom semestra će raditi na projektu izrade jezičnog resursa na kojem će moći ispuniti sve očekivane ishode učenja.
Studenti će imati priliku raditi na jednom od 2 projekta: izradi i označavanju CroLTeC-a (učeničkog korpusa hrvatskog kao stranog
jezika) ili CroVallex-a (valencijskog leksikona hrvatskih glagola).Studenti će se upoznati s automatskom analizom ljudskog jezika od
strane računalnih algoritama te ih koristiti za pretvorbu jednog jezičnog oblika u drugi, ali i za parsiranje jezika u strukturirani oblik.
Sadržaj
  1. Uvodno predavanje. Opis kolegija i uvjeti. Pregled područja i ciljevi.
  2. Jezični resursi i jezični alati. MULTEXT-EAST morfosintaktičke specifikacije.
  3. Jezični alati: 4 razine.
  4. Jezični resursi: leksikoni. Sintaktički i semantički pristup izradi leksičkih resursa. Korpusi, hrvatski korpusi, učenički korpusi.
  5. Jezični resursi: učenički korpusi - svjetski projekti izrade učeničkih korpusa.
  6. Učenički korpus CroLTeC.
  7. Jezični resursi - višejezični korpusi EU.
  8. Važnost valencijskog leksikona za računalnu obradu jezika.
  9. Valencijski leksikon: CROVALLEX- valencijski leksikon glagola hrvatskog jezika.
  10. Svjetski projekti izrade valencijskih leksikona.
  11. E-leksikografija i računalna leksikografija.
  12. Obrada diskursa i obrada dijaloga.
  13. Dijaloški sustavi – povijesni pregled.
  14. Dijaloški sustavi s inicijativom sustava.
  15. Dijaloški sustavi s mješovitom inicijativom.

Ishodi učenja
  1. Primijeniti znanja iz različitih područja računalne obrade jezika
  2. Identificirati i usporediti vodeće trendove i razvoj računalnih tehnologija
  3. Prepoznati značajke koje razlikuju sustave prirodnog jezika od ostalih inteligentnih sustava
  4. Opisati i reproducirati barem jedan pristup izradi računalnog jezičnog resursa za hrvatski jezik
  5. Opisati razliku u sintaktičkom i semantičkom pristupu klasifikaciji glagola u valencijskom leksikonu za različite prirodne jezike
  6. Vrednovati postojeće sustave za različite prirodne jezike
Metode podučavanja
predavanja, seminari i radionice, vježbe, mješovito e-učenje, samostali zadaci
Metode ocjenjivanja
projekt, pismeni ispit, pohađanje nastave, seminarski rad, praktični rad

Obavezna literatura
  1. Mikelic Preradovic, Nives; Lauc, Tomislava; Unic, Danijela. Application of Morphosyntactic Cues in Detection of GOAL Semantic Role // International Journal of E-Services and Mobile Applications (IJESMA), 13(2021), 4.
  2. Mikelić Preradović, Nives. CROVALLEX Valencijski leksikon glagola hrvatskoga jezika. Zagreb: Zavod za informacijske studije Odsjeka za informacijske i komunikacijske znanosti Filozofskog fakulteta Sveučilišta u Zagrebu, 2019 (monografija).
  3. Mikelić Preradović, Nives; Berać, Monika; Boras, Damir. Learner Corpus of Croatian as a Second and Foreign Language // Multidisciplinary Approaches to Multilingualism / Cergol Kovačević, Kristina ; Udier, Sanda Lucija (ur.). Frankfurt am Main, Germany : Peter Lang, 2015. Str. 107-126.
  4. Mikelić Preradović, Nives Error-Tagging of CroLTeC (Electronic Learner Corpus of Croatian as a Foreign Language) // Rasprave Instituta za hrvatski jezik i jezikoslovlje, 46 (2020), 2; 899-92.
  5. Mikelić Preradović, Nives; Boras, Damir; Lauc, Tomislava. Motion Event in Croatian, English, German and Italian Concerning Path Prefixes and Prepositions // Lecture Notes in Computer Science / Habernal, Ivan; Matoušek, Václav (ur.). Heidelberg : Springer, 2013. Str. 335-342. 
  6. Mikelić Preradović, Nives; Boras, Damir. Semi-automatic Verb Valence Frame Assignment through VerbNet Classification // Lecture notes in Computer Science / Habernal, Ivan ; Matoušek, Václav (ur.). Heidelberg : Springer, 2013. Str. 492-500.
  7. Mikelić Preradović, Nives; Boras, Damir. Knowledge-Driven Multilingual Event Detection Using Cross-Lingual Subcategorization Frames // Human Language Technologies as a Challenge for Computer Science and Linguistics / Vetulani, Zygmunt ; Uszkoreit, Hans (ur.). Poznan, Poland: Fundacja Uniwersytetu im. A. Mickiewicza, 2013. Str. 214- 218. 
Dopunska literatura
  1. Marko Tadić. Jezične tehnologije i hrvatski jezik. Exlibris, Zagreb 2003.
  2. Daniel Jurafsky & James. H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Prentice Hall, NJ, 2000

Obavezan predmet na studijima
  1. Digitalna lingvistika, sveučilišni diplomski jednopredmetni studij, 1. semestar