Jezični inženjering

Naziv
Jezični inženjering
Organizacijska jedinica
Odsjek za informacijske i komunikacijske znanosti
ECTS bodovi
6
Šifra
135994
Semestri izvođenja
zimski
Jezik izvođenja
Hrvatski
Satnica
Predavanja
15
Seminar
15
Auditorne vježbe
30

Cilj
Cilj predmeta je podučiti studente razlikovanju jezičnih alata i jezičnih resursa. Studenti će se upoznati s karakteristikama jezičnih alata na glasovnoj/fonemskoj/grafemskoj razini, razini riječi, sintaktičkoj razini, semantičkoj razini te pragmatičkoj razini te posebice sa složenim komercijalnim alatima. Detaljnije će se upoznati i s jezičnim resursima za hrvatski jezik (računalni korpusi i valencijski leksikon). Nadalje, cilj kolegija je pružiti studentima teoretsko i praktično znanje u oblikovanju jezičnog resursa. Tijekom semestra će raditi na projektu izrade jezičnog resursa na kojem će moći ispuniti sve očekivane ishode učenja. Studenti će se upoznati s automatskom analizom ljudskog jezika od strane računalnih algoritama te ih koristiti za pretvorbu jednog jezičnog oblika u drugi, ali i za parsiranje jezika u strukturirani oblik.
Sadržaj
  1. Uvodno predavanje. Opis kolegija i uvjeti.
  2. Jezični resursi i jezični alati.
  3. Korpusi, hrvatski korpusi, učenički korpusi.
  4. Pristupi izradi valencijskih leksikona glagola.
  5. CROVALLEX- valencijski leksikon glagola hrvatskog jezika.
  6. Leksička semantika - Case for Case (Fillmore)
  7. Leksička semantika - FrameNet
  8. Leksičke konceptualne strukture - Jackendoff
  9. Valencije imenica i pridjeva.
  10. Strojno prevođenje -pristup utemeljen na pravilima.
  11. Strojno prevođenje-statistički pristup.
  12. Strojno prevođenje- evaluacija.
  13. Dijaloski sustavi – povijesni pregled.
  14. Dijaloski sustavi s inicijativom sustava
  15. Dijaloski sustavi s mješovitom inicijativom

Ishodi učenja
  1. Primijeniti znanja iz različitih područja računalne obrade jezika
  2. Prepoznati i klasificirati probleme vezane za dizajn, razvoj, evaluaciju i realizaciju dijaloških sustava utemeljenih na prirodnom jeziku
  3. Identificirati i usporediti vodeće trendove i razvoj računalnih tehnologija te tehnologije naprednog pretraživanja
  4. Prepoznati značajke koje razlikuju sustave prirodnog jezika od ostalih inteligentnih sustava
  5. Opisati i reproducirati barem jedan pristup izradi računalnog jezičnog resursa za hrvatski jezik
  6. Razumjeti i opisati razliku u sintaktičkom i semantičkom pristupu klasifikaciji glagola u valencijskom leksikonu za različite prirodne jezike
  7. Vrednovati postojeće sustave za različite prirodne jezike
Metode podučavanja
Predavanja, seminari, vježbe
Metode ocjenjivanja
Student koji ne dolazi na nastavu ili izostane više od 3 puta s predavanja, seminara i vježbi nema pravo izlaska na pismeni ispit. Student koji nije predao seminar i održao prezentaciju seminara, nema pravo izlaska na pismeni ispit. Vježbe se ocjenjuju na sljedeći način: 0% = Više od 6 propuštenih vježbi. 10% = Više od 5 propuštenih vježbi. 20% = Više od 4 propuštene vježbe. 30% = Više od 3 propuštene vježbe. 40% = Više od 2 propuštene vježbe. 50% = Redovito pohađa vježbe, predao/la svih 15 vježbi na kolegiju, predao/la seminarski rad i održao/la prezentaciju Završni pismeni ispit se ocjenjuju na sljedeći način manje od 50% točnih odgovora = 0% ocjene od 50% do 55% = 10% ocjene od 56% do 61% = 15% ocjene

Obavezna literatura
  1. Mikelić Preradović, Nives. Semantic classification of verbs in CROVALLEX // RECENT ADVANCES in COMPUTER ENGINEERING and APPLICATIONS. Proceedings of the 4th WSEAS International Conference on COMPUTER ENGINEERING and APPLICATIONS (CEA '10). / Lagakos, Stephen ; Perlovsky, Leonid ; Jha, Manoj ; Covaci, Brindusa ; Zaharim, Azama ; Mastorakis, Nikos (ur.). Harvard University, Cambridge, USA : WSEAS Press, 2010. Str. 53-59.
  2. Mikelić Preradović, Nives. Pristupi izradi strojnog tezaurusa za hrvatski jezik / doktorska disertacija. Zagreb: Filozofski fakultet, 2008.
  3. Siniša Srbljić. Jezični procesori 2 : analiza izvornog i sinteza ciljnog programa. Element, Zagreb, 2003.
Dopunska literatura
  1. Marko Tadić. Jezične tehnologije i hrvatski jezik. Exlibris, Zagreb 2003.
  2. Pinker, Steven. The Language Instinct. London: Penguin, 1994.
  3. Evans, Roger; and Gerald Gazdar. DATR: a Language for Lexical Knowledge Representation. Computational Linguistics 22 (2).167-216
  4. Marko Tadić i Krešimir Šojat. Finding Multiword Term Candidates in Croatian. Proceedings of RANLP2003 Conference (Borovets 2003), Bugarska akademija znanosti, str. 102-107
  5. Marko Tadić i Božo Bekavac. Preparation of POS tagging of Croatian using CLaRK System. Proceedings of RANLP2003 Conference (Borovets 2003), Bugarska akademija znanosti, str. 455-459
  6. Allen, James. Natural Language Understanding. Redwood, CA: Benjamin, 1995.
  7. Copestake, Ann. Analysing Sentences, Noel Burton-Roberts, Longman, 1997.
  8. Daniel Jurafsky & James. H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Prentice Hall, NJ, 2000
  9. Mikelic Preradovic, Nives; Boras, Damir; Kisicek, Sanja. (2009) CROVALLEX: Croatian Verb Valence Lexicon. In / Luzar-Stiffler, V. et al. (eds.) Proceedings of the ITI 2009 31st International Conference on Information Technology Interfaces. Zagreb: SRCE. pp. 533-538.

Izborni predmet na studijima
  1. Informacijske znanosti, sveučilišni preddiplomski jednopredmetni studij, 5. semestar
  2. Informacijske znanosti, sveučilišni preddiplomski dvopredmetni studij, 5. semestar