Naziv
Jezični inženjering
Organizacijska jedinica
Odsjek za informacijske i komunikacijske znanosti
ECTS
6
Šifra
135994
Semestri
zimski
Satnica
Predavanja
15
Seminar
15
Auditorne vježbe
30

Cilj
Cilj predmeta je podučiti studente razlikovanju jezičnih alata i jezičnih resursa. Studenti će se upoznati s karakteristikama jezičnih alata na glasovnoj/fonemskoj/grafemskoj razini, razini riječi, sintaktičkoj razini, semantičkoj razini te pragmatičkoj razini te posebice sa složenim komercijalnim alatima obrade prirodnog jezika. Detaljnije će se upoznati i s jezičnim resursima za hrvatski jezik (računalni korpusi i valencijski leksikon). Nadalje, cilj kolegija je pružiti studentima teoretsko i praktično znanje u oblikovanju jezičnog resursa. Tijekom semestra će raditi na projektu izrade jezičnog resursa na kojem će moći ispuniti sve očekivane ishode učenja. Studenti će imati priliku raditi na jednom od 2 projekta: izradi i označavanju CroLTeC-a (učeničkog korpusa hrvatskog kao stranog jezika) ili CroVallex-a (valencijskog leksikona hrvatskih glagola).Studenti će se upoznati s automatskom analizom ljudskog jezika od strane računalnih algoritama te ih koristiti za pretvorbu jednog jezičnog oblika u drugi, ali i za parsiranje jezika u strukturirani oblik.
Sadržaj
  1. Uvodno predavanje. Opis kolegija i uvjeti. Pregled područja i ciljevi.
  2. Jezični resursi i jezični alati. MULTEXT-EAST morfosintaktičke specifikacije.
  3. Jezični alati: 4 razine.
  4. Jezični resursi: leksikoni. Sintaktički i semantički pristup izradi leksičkih resursa. Korpusi, hrvatski korpusi, učenički korpusi.
  5. Jezični resursi: učenički korpusi - svjetski projekti izrade učeničkih korpusa.
  6. Učenički korpus CroLTeC.
  7. Jezični resursi - višejezični korpusi EU.
  8. Važnost valencijskog leksikona za računalnu obradu jezika.
  9. Valencijski leksikon: CROVALLEX- valencijski leksikon glagola hrvatskog jezika..
  10. Svjetski projekti izrade valencijskih leksikona.
  11. E-leksikografija i računalna leksikografija.
  12. Obrada diskursa i obrada dijaloga
  13. Dijaloski sustavi – povijesni pregled.
  14. Dijaloski sustavi s inicijativom sustava
  15. Dijaloski sustavi s mješovitom inicijativom

Ishodi učenja
  1. Primijeniti znanja iz različitih područja računalne obrade jezika
  2. Identificirati i usporediti vodeće trendove i razvoj računalnih tehnologija
  3. Prepoznati značajke koje razlikuju sustave prirodnog jezika od ostalih inteligentnih sustava
  4. Opisati i reproducirati barem jedan pristup izradi računalnog jezičnog resursa za hrvatski jezik
  5. Opisati razliku u sintaktičkom i semantičkom pristupu klasifikaciji glagola u valencijskom leksikonu za različite prirodne jezike
  6. Vrednovati postojeće sustave za različite prirodne jezike
  7. Interpretirati probleme vezane za dizajn, razvoj, evaluaciju i realizaciju dijaloških sustava utemeljenih na prirodnom jeziku
  8. Interpretirati i koristiti stručnu terminologiju na hrvatskom i engleskom jeziku
  9. Prepoznati i klasificirati probleme vezane za dizajn, razvoj, evaluaciju i realizaciju dijaloških sustava utemeljenih na prirodnom jeziku
Metode podučavanja
Predavanja, seminari, vježbe
Metode ocjenjivanja
Student koji ne dolazi na nastavu ili izostane više od 3 puta s predavanja, seminara i vježbi nema pravo izlaska na pismeni ispit.
Student koji nije predao seminar nema pravo izlaska na pismeni ispit.

Vježbe se ocjenjuju na sljedeći način:
0% = Više od 6 propuštenih vježbi.
10% = Više od 5 propuštenih vježbi.
20% = Više od 4 propuštene vježbe.
30% = Više od 3 propuštene vježbe.
40% = Više od 2 propuštene vježbe.
50% = Redovito pohađa vježbe, predao/la svih 15 vježbi na kolegiju, predao/la seminarski rad

Završni pismeni ispit se ocjenjuju na sljedeći način
manje od 50% točnih odgovora = 0% ocjene
od 50% do 55% = 10% ocjene
od 56% do 61% = 15% ocjene

Obavezna literatura
  1. Mikelić Preradović, Nives; Berać, Monika; Boras, Damir. Learner Corpus of Croatian as a Second and Foreign Language // Multidisciplinary Approaches to Multilingualism / Cergol Kovačević, Kristina ; Udier, Sanda Lucija (ur.). Frankfurt am Main, Germany : Peter Lang, 2015. Str. 107-126.
  2. Mikelić Preradović, Nives. CROVALLEX Valencijski leksikon glagola hrvatskoga jezika. Zagreb: Zavod za informacijske studije Odsjeka za informacijske i komunikacijske znanosti Filozofskog fakulteta Sveučilišta u Zagrebu, 2019 (monografija).
  3. Mikelić Preradović, Nives; Boras, Damir. Semi-automatic Verb Valence Frame Assignment through VerbNet Classification // Lecture notes in Computer Science / Habernal, Ivan ; Matoušek, Václav (ur.). Heidelberg : Springer, 2013. Str. 492-500.
  4. Mikelić Preradović, Nives; Boras, Damir. Knowledge-Driven Multilingual Event Detection Using Cross-Lingual Subcategorization Frames // Human Language Technologies as a Challenge for Computer Science and Linguistics / Vetulani, Zygmunt ; Uszkoreit, Hans (ur.). Poznan, Poland: Fundacja Uniwersytetu im. A. Mickiewicza, 2013. Str. 214-218.
  5. Mikelić Preradović, Nives; Boras, Damir; Lauc, Tomislava. Motion Event in Croatian, English, German and Italian Concerning Path Prefixes and Prepositions // Lecture Notes in Computer Science / Habernal, Ivan; Matoušek, Václav (ur.). Heidelberg : Springer, 2013. Str. 335-342.
Dopunska literatura
  1. Marko Tadić. Jezične tehnologije i hrvatski jezik. Exlibris, Zagreb 2003.
  2. Pinker, Steven. The Language Instinct. London: Penguin, 1994.
  3. Evans, Roger; and Gerald Gazdar. DATR: a Language for Lexical Knowledge Representation. Computational Linguistics 22 (2).167-216
  4. Marko Tadić i Krešimir Šojat. Finding Multiword Term Candidates in Croatian. Proceedings of RANLP2003 Conference (Borovets 2003), Bugarska akademija znanosti, str. 102-107
  5. Marko Tadić i Božo Bekavac. Preparation of POS tagging of Croatian using CLaRK System. Proceedings of RANLP2003 Conference (Borovets 2003), Bugarska akademija znanosti, str. 455-459
  6. Allen, James. Natural Language Understanding. Redwood, CA: Benjamin, 1995.
  7. Copestake, Ann. Analysing Sentences, Noel Burton-Roberts, Longman, 1997.
  8. Daniel Jurafsky & James. H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Prentice Hall, NJ, 2000
  9. Mikelic Preradovic, Nives; Boras, Damir; Kisicek, Sanja. (2009) CROVALLEX: Croatian Verb Valence Lexicon. In / Luzar-Stiffler, V. et al. (eds.) Proceedings of the ITI 2009 31st International Conference on Information Technology Interfaces. Zagreb: SRCE. pp. 533-538.

Izborni predmet na studijima
  1. Informacijske znanosti, sveučilišni prijediplomski jednopredmetni studij, 5. semestar
  2. Informacijske znanosti, sveučilišni prijediplomski dvopredmetni studij, 5. semestar
Fakultetska ponuda
  • Prijediplomski studij: Zimski semestar