Naziv
Obrada teksta i jezika
Organizacijska jedinica
Odsjek za informacijske i komunikacijske znanosti
ECTS
6
Šifra
51387
Semestri
zimski
Nastavnici
Satnica
Predavanja
30
Vježbe u praktikumu
30

Cilj
Studenti se upoznaju s osnovnim metodama automatske obrade tekstualnih podataka na razini niza podataka, odnosno poruke kodirane prirodnim jezikom. U teorijskom se dijelu kolegija upoznaju načine kodiranja teksta kao i najčešći datotečni formati zapisa teksta. Nadalje se daje uvod u osnove statističke obrade jezika te primjere statističkog modeliranja jezika. Praktični se dio sastoji od upoznavanja osnova programiranja u interpretiranom jeziku Python, programiranja nad sekvencijalnim tipovima podataka, struktura, regularnih izraza, računanja čestotnih razdioba sekvenci te primjera izgradnje jezičnih statističkih modela s primjenom. Prvim se kolokvijem provjerava usvajanje osnova programiranja u Pythonu. Završni zadatak predstavlja potvrdu usvojenosti elemenata kolegija uvedenima tijekom semestra. / Studenti moraju upoznati osnovne metode računalne pohrane i obrade teksta. Također moraju svladati osnovne metode statističke analize jezičnog uzorka kao i primjere modeliranja jezika za rješavanje primjera stvarnih problema. / Ispit: Pismeni i usmeni ispit.
Sadržaj
  1. Uvodno predavanje. Opis kolegija. Programski jezik Python.
  2. Osnove kodiranja teksta. Osnove programiranja u Pythonu.
  3. Kodne stranice stalne duljine zapisa. Osnovne strukture podataka u Pythonu.
  4. Unicode i oblici kodiranja Unicode standarda. Rad s tekstualnim datotekama u Pythonu.
  5. Rad s modulom codecs, rad s modulima.
  6. Računanje čestotnih razdioba.
  7. Prvi kolokvij.
  8. Osnove regularnih izraza.
  9. Napredni regularni izrazi.
  10. Čestotne razdiobe n-grama znakova i riječi.
  11. Osnove modeliranja jezika.
  12. Završni zadatak.
  13. Zavšni zadatak.
  14. Završni zadatak.
  15. Drugi kolokvij.

Ishodi učenja
  1. Objasniti osnove pohrane i obrade teksta u računalu.
  2. Objasniti osnove programiranja nad tekstnim podacima.
  3. Objasniti osnove statističkog modeliranja jezičnih fenomena.
  4. Usporediti razne jezične modele.
Metode podučavanja
Predavanja, vježbe na računalima, sustav učenja na daljinu.
Metode ocjenjivanja
Dva kolokvija. Kratki međuispiti. Usmeni ispit.

Obavezna literatura
  1. Python Documentation. https://docs.python.org/.
  2. Jurafsky, Daniel; Martin, James H. Speech and Language Processing (2nd Edition). New Jersey: Prentice Hall, 2008.
Dopunska literatura
  1. Bird, Steven; Klein, Ewan, Loper, Edward. Natural Language Processing with Python. O'Reilly Media, 1999.
  2. Tadić, Marko. Jezične tehnologije i hrvatski jezik. Zagreb: Ex libris, 2003.
  3. Manning, Christopher D.; Schuetze, Hinrich. Foundations of Statistical Natural Language Processing. The MIT Press, 2002.

Obavezan predmet na studijima
Stari studiji
  1. Informacijske znanosti, sveučilišni prijediplomski jednopredmetni studij, 3. semestar
Izborni predmet na studijima
Stari studiji
  1. Informacijske znanosti, sveučilišni prijediplomski dvopredmetni studij, 3. semestar