Naziv
Jezični inženjering
Organizacijska jedinica
Odsjek za informacijske i komunikacijske znanosti
ECTS bodovi
6
Šifra
135994
Semestri izvođenja
zimski
Jezik izvođenja
hrvatski
Satnica
Predavanja
15
Seminar
15
Auditorne vježbe
30

Cilj
Cilj predmeta je podučiti studente razlikovanju jezičnih alata i jezičnih resursa. Studenti će se upoznati s karakteristikama jezičnih alata na glasovnoj/fonemskoj/grafemskoj razini, razini riječi, sintaktičkoj razini, semantičkoj razini te pragmatičkoj razini te posebice sa složenim komercijalnim alatima. Detaljnije će se upoznati i s jezičnim resursima za hrvatski jezik (računalni korpusi i valencijski leksikon). Nadalje, cilj kolegija je pružiti studentima teoretsko i praktično znanje u oblikovanju jezičnog resursa. Tijekom semestra će raditi na projektu izrade jezičnog resursa na kojem će moći ispuniti sve očekivane ishode učenja. Studenti će imati priliku raditi na jednom od 2 projekta: izradi i označavanju CroLTeC-a (učeničkog korpusa hrvatskog kao stranog jezika) ili CroVallex-a (valencijskog leksikona hrvatskih glagola).Studenti će se upoznati s automatskom analizom ljudskog jezika od strane računalnih algoritama te ih koristiti za pretvorbu jednog jezičnog oblika u drugi, ali i za parsiranje jezika u strukturirani oblik.
Sadržaj
  1. Uvodno predavanje. Opis kolegija i uvjeti. Pregled područja i ciljevi.
  2. Jezični resursi i jezični alati. MULTEXT-EAST morfosintaktičke specifikacije.
  3. Jezični alati: 4 razine.
  4. Jezični resursi: leksikoni. Sintaktički i semantički pristup izradi leksičkih resursa. Korpusi, hrvatski korpusi, učenički korpusi.
  5. Jezični resursi: učenički korpusi - svjetski projekti izrade učeničkih korpusa.
  6. Učenički korpus CroLTeC.
  7. Jezični resursi - višejezični korpusi EU.
  8. Važnost valencijskog leksikona za računalnu obradu jezika.
  9. Valencijski leksikon: CROVALLEX- valencijski leksikon glagola hrvatskog jezika..
  10. Svjetski projekti izrade valencijskih leksikona.
  11. E-leksikografija i računalna leksikografija.
  12. Obrada diskursa i obrada dijaloga
  13. Dijaloski sustavi – povijesni pregled.
  14. Dijaloski sustavi s inicijativom sustava
  15. Dijaloski sustavi s mješovitom inicijativom

Ishodi učenja
  1. Primijeniti znanja iz različitih područja računalne obrade jezika
  2. Identificirati i usporediti vodeće trendove i razvoj računalnih tehnologija
  3. Prepoznati značajke koje razlikuju sustave prirodnog jezika od ostalih inteligentnih sustava
  4. Opisati i reproducirati barem jedan pristup izradi računalnog jezičnog resursa za hrvatski jezik
  5. Opisati razliku u sintaktičkom i semantičkom pristupu klasifikaciji glagola u valencijskom leksikonu za različite prirodne jezike
  6. Vrednovati postojeće sustave za različite prirodne jezike
Metode podučavanja
Predavanja, seminari, vježbe
Metode ocjenjivanja
Student koji ne dolazi na nastavu ili izostane više od 3 puta s predavanja, seminara i vježbi nema pravo izlaska na pismeni ispit. Student koji nije predao seminar i održao prezentaciju seminara, nema pravo izlaska na pismeni ispit. Vježbe se ocjenjuju na sljedeći način: 0% = Više od 6 propuštenih vježbi. 10% = Više od 5 propuštenih vježbi. 20% = Više od 4 propuštene vježbe. 30% = Više od 3 propuštene vježbe. 40% = Više od 2 propuštene vježbe. 50% = Redovito pohađa vježbe, predao/la svih 15 vježbi na kolegiju, predao/la seminarski rad i održao/la prezentaciju Završni pismeni ispit se ocjenjuju na sljedeći način manje od 50% točnih odgovora = 0% ocjene od 50% do 55% = 10% ocjene od 56% do 61% = 15% ocjene

Obavezna literatura
  1. Mikelić Preradović, Nives; Berać, Monika; Boras, Damir. Learner Corpus of Croatian as a Second and Foreign Language // Multidisciplinary Approaches to Multilingualism / Cergol Kovačević, Kristina ; Udier, Sanda Lucija (ur.). Frankfurt am Main, Germany : Peter Lang, 2015. Str. 107-126.
  2. Mikelić Preradović, Nives. CROVALLEX Valencijski leksikon glagola hrvatskoga jezika. Zagreb: Zavod za informacijske studije Odsjeka za informacijske i komunikacijske znanosti Filozofskog fakulteta Sveučilišta u Zagrebu, 2019 (monografija).
  3. Mikelić Preradović, Nives; Boras, Damir. Semi-automatic Verb Valence Frame Assignment through VerbNet Classification // Lecture notes in Computer Science / Habernal, Ivan ; Matoušek, Václav (ur.). Heidelberg : Springer, 2013. Str. 492-500.
  4. Mikelić Preradović, Nives; Boras, Damir. Knowledge-Driven Multilingual Event Detection Using Cross-Lingual Subcategorization Frames // Human Language Technologies as a Challenge for Computer Science and Linguistics / Vetulani, Zygmunt ; Uszkoreit, Hans (ur.). Poznan, Poland: Fundacja Uniwersytetu im. A. Mickiewicza, 2013. Str. 214-218.
  5. Mikelić Preradović, Nives; Boras, Damir; Lauc, Tomislava. Motion Event in Croatian, English, German and Italian Concerning Path Prefixes and Prepositions // Lecture Notes in Computer Science / Habernal, Ivan; Matoušek, Václav (ur.). Heidelberg : Springer, 2013. Str. 335-342.
Dopunska literatura
  1. Marko Tadić. Jezične tehnologije i hrvatski jezik. Exlibris, Zagreb 2003.
  2. Pinker, Steven. The Language Instinct. London: Penguin, 1994.
  3. Evans, Roger; and Gerald Gazdar. DATR: a Language for Lexical Knowledge Representation. Computational Linguistics 22 (2).167-216
  4. Marko Tadić i Krešimir Šojat. Finding Multiword Term Candidates in Croatian. Proceedings of RANLP2003 Conference (Borovets 2003), Bugarska akademija znanosti, str. 102-107
  5. Marko Tadić i Božo Bekavac. Preparation of POS tagging of Croatian using CLaRK System. Proceedings of RANLP2003 Conference (Borovets 2003), Bugarska akademija znanosti, str. 455-459
  6. Allen, James. Natural Language Understanding. Redwood, CA: Benjamin, 1995.
  7. Copestake, Ann. Analysing Sentences, Noel Burton-Roberts, Longman, 1997.
  8. Daniel Jurafsky & James. H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Prentice Hall, NJ, 2000
  9. Mikelic Preradovic, Nives; Boras, Damir; Kisicek, Sanja. (2009) CROVALLEX: Croatian Verb Valence Lexicon. In / Luzar-Stiffler, V. et al. (eds.) Proceedings of the ITI 2009 31st International Conference on Information Technology Interfaces. Zagreb: SRCE. pp. 533-538.

Izborni predmet na studijima
  1. Informacijske znanosti, sveučilišni preddiplomski jednopredmetni studij, 5. semestar
  2. Informacijske znanosti, sveučilišni preddiplomski dvopredmetni studij, 5. semestar