Jezične baze podataka

Naziv
Jezične baze podataka
Organizacijska jedinica
Odsjek za informacijske i komunikacijske znanosti
ECTS bodovi
3
Šifra
52648
Semestri izvođenja
zimski
Jezik izvođenja
Hrvatski
Satnica
Predavanja
15
Seminar
15

Cilj
Studenti se trebaju upoznati s oblicima te načelima izrade i korištenja različitih jezičnih baza podataka te na konkretnom primjeru svladati tehnike izrade jezične baze podataka od digitalizacije teksta do formiranja konkretne jezične baze podataka.
Sadržaj
  1. Definicija jezičnih baza podataka.
  2. Poredbena analiza flektivnih i neflektivnih (analitičkih) jezika.
  3. Modeli i strukture različitih jezičnih baza: korektori pogrešaka.
  4. Modeli i strukture različitih jezičnih baza: tezaurusi/strukturirani popisi riječi.
  5. Modeli i strukture različitih jezičnih baza: korpusi/označavanje teksta.
  6. Modeli i strukture različitih jezičnih baza: rječnici, leksičke baze
  7. Kolokvij.
  8. Modeli i strukture različitih jezičnih baza: rječničke baze
  9. Modeli i strukture različitih jezičnih baza: generatori oblika za flektivne jezike.
  10. Modeli i strukture različitih jezičnih baza: valencijski rječnici.
  11. Označavanje podataka u jezičnim bazama.
  12. Jezične baze podataka kao pretpostavka za automatsku segmentaciju teksta i automatsko indeksiranje.
  13. Projektiranje jezičnih baza podataka.
  14. Analiza postojećih jezičnih baza.
  15. Kolokvij.

Ishodi učenja
  1. Definirati osnovne pojmove iz područja leksikografije.
  2. Objasniti problem procesa digitalizacije tiskanih jezičnih resursa.
  3. Objasniti principe rada jezičnih alata.
Metode podučavanja
Predavanja i vježbe na računalima koje kroz praktične primjere prate predavanja.
Metode ocjenjivanja
Tijekom semestra studenti će imati dva kolokvija s kojima se mogu osloboditi pismenog dijela ispita. Pismeni ispit.

Obavezna literatura
  1. Fellbaum, Christiane. WordNet: An Electronic Lexical Database (Language, Speech, and Communication). Cambridge: Bradford Books, 1998.
  2. Modeli znanja i obrada prirodnog jezika / uredio Miroslav Tuđman. Zagreb: Zavod za informacijske studije, 2003.
  3. Natural Language Processing, Computational Linguistics and Speech Recognition. New Jersey: Prentice Hall, 2000.
  4. Tadić, Marko. Jezične tehnologije i hrvatski jezik. Zagreb: Ex libris, 2003.
Dopunska literatura
  1. Briscoe, Ted; Boguraev, Bran. Computational lexicography for natural language processing. New York: Longman Publishing Group, 1989.
  2. Jurafsky, Daniel; Martin, James H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. New Jersey: Prentice Hall, 2000.
  3. Text Encoding Initiative. http://www.tei-c.org
  4. Feddema, Helen. Microsoft Access version 2002 inside out. Redmond: Microsoft Press, 2002.

Obavezan predmet na studijima
  1. Informacijske znanosti, sveučilišni preddiplomski jednopredmetni studij, 5. semestar
Izborni predmet na studijima
  1. Informacijske znanosti, sveučilišni preddiplomski dvopredmetni studij, 5. semestar