Naziv
Jezične baze podataka
Organizacijska jedinica
Odsjek za informacijske i komunikacijske znanosti
ECTS bodovi
3
Šifra
52648
Semestri izvođenja
zimski
Jezik izvođenja
hrvatski
Nastavnici
Satnica
Predavanja
15
Seminar
15
Preduvjeti za upis i polaganje kolegija
Za upis kolegija se moraju

Cilj
Studenti se upoznaju s osnovnim pojmovima u području obrade jezičnih resursa. Obrazlažu se strukture podataka kao što su relacijski model podataka te XML jezik za označivanje koje se koriste oblikovanju jezičnih baza podataka. Obrađuju se temeljni pojmovi jezičnih resursa kao što su korpusi, rječničke i leksičke baze podataka, leksičke i semantičke veze kao i semantičke mreže. Uvode se osnovni oblici i načini rada jezičnih alata kao što su pravopisni provjernici te morfološki generatori i analizatori. Nadalje, studente se upoznaje s procesom digitalizacije tiskanih jezičnih resursa te automatske segmentacije i strukturiranja dobivenih podataka. Svaka tematska jedinica završava kolokvijem. / Studenti se trebaju upoznati s oblicima te načelima izrade i korištenja različitih jezičnih baza podataka te na konkretnom primjeru svladati tehnike izrade jezične baze podataka od digitalizacije teksta do formiranja konkretne jezične baze podataka. / Ispit: Pismeni ispit.
Sadržaj
  1. Definicija jezičnih baza podataka.
  2. Poredbena analiza flektivnih i neflektivnih (analitičkih) jezika.
  3. Modeli i strukture različitih jezičnih baza: korektori pogrešaka.
  4. Modeli i strukture različitih jezičnih baza: tezaurusi/strukturirani popisi riječi.
  5. Modeli i strukture različitih jezičnih baza: korpusi/označavanje teksta.
  6. Modeli i strukture različitih jezičnih baza: rječnici, leksičke baze
  7. Kolokvij.
  8. Modeli i strukture različitih jezičnih baza: rječničke baze
  9. Modeli i strukture različitih jezičnih baza: generatori oblika za flektivne jezike.
  10. Modeli i strukture različitih jezičnih baza: valencijski rječnici.
  11. Označavanje podataka u jezičnim bazama.
  12. Jezične baze podataka kao pretpostavka za automatsku segmentaciju teksta i automatsko indeksiranje.
  13. Projektiranje jezičnih baza podataka.
  14. Analiza postojećih jezičnih baza.
  15. Kolokvij.

Ishodi učenja
  1. Identificirati jezične resurse.
  2. Objasniti osnovne pojmove u području obrade jezičnih resursa.
  3. Identificirati i objasniti jezike za označavanje.
Metode podučavanja
Predavanja i vježbe na računalima koje kroz praktične primjere prate predavanja.
Metode ocjenjivanja
Tijekom semestra studenti će imati dva kolokvija s kojima se mogu osloboditi pismenog dijela ispita. Pismeni ispit.

Obavezna literatura
  1. Fellbaum, Christiane. WordNet: An Electronic Lexical Database (Language, Speech, and Communication). Cambridge: Bradford Books, 1998.
  2. Modeli znanja i obrada prirodnog jezika / uredio Miroslav Tuđman. Zagreb: Zavod za informacijske studije, 2003.
  3. Natural Language Processing, Computational Linguistics and Speech Recognition. New Jersey: Prentice Hall, 2000.
  4. Tadić, Marko. Jezične tehnologije i hrvatski jezik. Zagreb: Ex libris, 2003.
Dopunska literatura
  1. Briscoe, Ted; Boguraev, Bran. Computational lexicography for natural language processing. New York: Longman Publishing Group, 1989.
  2. Jurafsky, Daniel; Martin, James H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. New Jersey: Prentice Hall, 2000.
  3. Text Encoding Initiative. http://www.tei-c.org
  4. Feddema, Helen. Microsoft Access version 2002 inside out. Redmond: Microsoft Press, 2002.

Obavezan predmet na studijima
  1. Informacijske znanosti, sveučilišni preddiplomski jednopredmetni studij, 5. semestar
Izborni predmet na studijima
  1. Informacijske znanosti, sveučilišni preddiplomski dvopredmetni studij, 5. semestar