Naziv
Jezični inženjering
Organizacijska jedinica
Odsjek za informacijske i komunikacijske znanosti
ECTS
6
Šifra
135994
Semestri
zimski
Satnica
Predavanja
15
Seminar
15
Auditorne vježbe
30

Cilj
Cilj predmeta je upoznati studente s jezičnim resursima za hrvatski jezik na različitim razinama obrade jezika i pružiti studentima teoretsko i praktično znanje u oblikovanju jezičnog resursa. Tijekom semestra će raditi na projektu izrade jezičnog resursa na kojem će moći ispuniti sve očekivane ishode učenja.
Sadržaj
  1. Uvodno predavanje. Opis kolegija i uvjeti. Pregled područja i ciljevi.
  2. Računalni korpusi i razine označavanja.
  3. Razvojni korpusi i učenički korpusi.
  4. Tvorbeni morfološki leksikoni različitih europskih jezika
  5. Flektivni morfološki leksikoni različitih europskih jezika
  6. Automatska ekstrakcija morfološkog leksikona
  7. Leksički i značenjski odnosi u jezičnim resursima
  8. Inicijative izgradnje višejezičnih leksičkih baza
  9. Strategije spajanja i širenja za stvaranje i integraciju različitih leksičkih baza
  10. Jezične ontologije vs. konceptualne ontologije
  11. Potkategorizacija i valencija.
  12. Potkategorizacijski i valencijski leksički resursi.
  13. Značenjske uloge i leksikoni.
  14. Značenjski leksikoni.
  15. Mnijenje i leksikoni mnijenja.

Ishodi učenja
  1. Identificirati obilježja leksičkih resursa na različitiim razinama jezičnog označavanja
  2. Oprimjeriti automatsku izradu leksičkih resursa
  3. Analizirati obilježja leksičkih resursa na različitiim razinama jezičnog označavanja
  4. Vrednovati postojeće leksičke resurse za različite prirodne jezike
Metode podučavanja
Predavanja, seminari, vježbe
Metode ocjenjivanja
Student koji ne dolazi na nastavu ili izostane više od 3 puta s predavanja, seminara i vježbi nema pravo izlaska na pismeni ispit.
Student koji nije predao seminar nema pravo izlaska na pismeni ispit.

Vježbe se ocjenjuju na sljedeći način:
0% = Više od 6 propuštenih vježbi.
10% = Više od 5 propuštenih vježbi.
20% = Više od 4 propuštene vježbe.
30% = Više od 3 propuštene vježbe.
40% = Više od 2 propuštene vježbe.
50% = Redovito pohađa vježbe, predao/la svih 15 vježbi na kolegiju, predao/la seminarski rad

Završni pismeni ispit se ocjenjuju na sljedeći način
manje od 50% točnih odgovora = 0% ocjene
od 50% do 55% = 10% ocjene
od 56% do 61% = 15% ocjene

Obavezna literatura
  1. Mikelić Preradović, Nives; Berać, Monika; Boras, Damir. Learner Corpus of Croatian as a Second and Foreign Language // Multidisciplinary Approaches to Multilingualism / Cergol Kovačević, Kristina ; Udier, Sanda Lucija (ur.). Frankfurt am Main, Germany : Peter Lang, 2015. Str. 107-126.
  2. Mikelić Preradović, Nives. CROVALLEX Valencijski leksikon glagola hrvatskoga jezika. Zagreb: Zavod za informacijske studije Odsjeka za informacijske i komunikacijske znanosti Filozofskog fakulteta Sveučilišta u Zagrebu, 2019 (monografija).
  3. Mikelić Preradović, Nives; Boras, Damir. Semi-automatic Verb Valence Frame Assignment through VerbNet Classification // Lecture notes in Computer Science / Habernal, Ivan ; Matoušek, Václav (ur.). Heidelberg : Springer, 2013. Str. 492-500.
  4. Mikelić Preradović, Nives; Boras, Damir. Knowledge-Driven Multilingual Event Detection Using Cross-Lingual Subcategorization Frames // Human Language Technologies as a Challenge for Computer Science and Linguistics / Vetulani, Zygmunt ; Uszkoreit, Hans (ur.). Poznan, Poland: Fundacja Uniwersytetu im. A. Mickiewicza, 2013. Str. 214-218.
  5. Mikelić Preradović, Nives; Boras, Damir; Lauc, Tomislava. Motion Event in Croatian, English, German and Italian Concerning Path Prefixes and Prepositions // Lecture Notes in Computer Science / Habernal, Ivan; Matoušek, Václav (ur.). Heidelberg : Springer, 2013. Str. 335-342.
Dopunska literatura
  1. Marko Tadić. Jezične tehnologije i hrvatski jezik. Exlibris, Zagreb 2003.
  2. Pinker, Steven. The Language Instinct. London: Penguin, 1994.
  3. Evans, Roger; and Gerald Gazdar. DATR: a Language for Lexical Knowledge Representation. Computational Linguistics 22 (2).167-216
  4. Marko Tadić i Krešimir Šojat. Finding Multiword Term Candidates in Croatian. Proceedings of RANLP2003 Conference (Borovets 2003), Bugarska akademija znanosti, str. 102-107
  5. Marko Tadić i Božo Bekavac. Preparation of POS tagging of Croatian using CLaRK System. Proceedings of RANLP2003 Conference (Borovets 2003), Bugarska akademija znanosti, str. 455-459
  6. Allen, James. Natural Language Understanding. Redwood, CA: Benjamin, 1995.
  7. Copestake, Ann. Analysing Sentences, Noel Burton-Roberts, Longman, 1997.
  8. Daniel Jurafsky & James. H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Prentice Hall, NJ, 2000
  9. Mikelic Preradovic, Nives; Boras, Damir; Kisicek, Sanja. (2009) CROVALLEX: Croatian Verb Valence Lexicon. In / Luzar-Stiffler, V. et al. (eds.) Proceedings of the ITI 2009 31st International Conference on Information Technology Interfaces. Zagreb: SRCE. pp. 533-538.

Izborni predmet na studijima
Stari studiji
  1. Informacijske znanosti, sveučilišni prijediplomski jednopredmetni studij, 5. semestar
  2. Informacijske znanosti, sveučilišni prijediplomski dvopredmetni studij, 5. semestar
Fakultetska ponuda
  • Prijediplomski studij: Zimski semestar