Naziv
Obrada teksta i jezika
Organizacijska jedinica
Odsjek za informacijske i komunikacijske znanosti
ECTS
60
Šifra
51387
Semestri
zimski
Nastavnici
Satnica
Predavanja
30
Vježbe u praktikumu
30

Cilj
Studenti se upoznaju s osnovnim metodama automatske obrade tekstualnih podataka na razini niza podataka, odnosno poruke kodirane prirodnim jezikom. U teorijskom se dijelu kolegija upoznaju načine kodiranja teksta kao i najčešći datotečni formati zapisa teksta. Nadalje se daje uvod u osnove statističke obrade jezika te primjere statističkog modeliranja jezika. Praktični se dio sastoji od upoznavanja osnova programiranja u interpretiranom jeziku Python, programiranja nad sekvencijalnim tipovima podataka, struktura, regularnih izraza, računanja čestotnih razdioba sekvenci te primjera izgradnje jezičnih statističkih modela s primjenom. Prvim se kolokvijem provjerava usvajanje osnova programiranja u Pythonu. Završni zadatak predstavlja potvrdu usvojenosti elemenata kolegija uvedenima tijekom semestra. / Studenti moraju upoznati osnovne metode računalne pohrane i obrade teksta. Također moraju svladati osnovne metode statističke analize jezičnog uzorka kao i primjere modeliranja jezika za rješavanje primjera stvarnih problema. / Ispit: Pismeni i usmeni ispit.
Sadržaj
  1. Uvodno predavanje. Opis kolegija. Programski jezik Python.
  2. Osnove kodiranja teksta. Osnove programiranja u Pythonu.
  3. Kodne stranice stalne duljine zapisa. Osnovne strukture podataka u Pythonu.
  4. Unicode i oblici kodiranja Unicode standarda. Rad s tekstualnim datotekama u Pythonu.
  5. Rad s modulom codecs, rad s modulima.
  6. Računanje čestotnih razdioba.
  7. Prvi kolokvij.
  8. Osnove regularnih izraza.
  9. Napredni regularni izrazi.
  10. Čestotne razdiobe n-grama znakova i riječi.
  11. Osnove modeliranja jezika.
  12. Završni zadatak.
  13. Zavšni zadatak.
  14. Završni zadatak.
  15. Drugi kolokvij.

Ishodi učenja
  1. Objasniti osnove pohrane i obrade teksta u računalu.
  2. Objasniti osnove programiranja nad tekstnim podacima.
  3. Objasniti osnove statističkog modeliranja jezičnih fenomena.
  4. Usporediti razne jezične modele.
  5. Sudjelovati na projektima iz područja informacijskih i komunikacijskih znanosti
  6. Primijeniti znanja iz različitih područja računalne obrade jezika
  7. Prepoznati i primijeniti rezultate istraživanja iz polja informacijskih i komunikacijskih znanosti
  8. Interpretirati i koristiti stručnu terminologiju na hrvatskom i engleskom jeziku
Metode podučavanja
Predavanja, vježbe na računalima, sustav učenja na daljinu.
Metode ocjenjivanja
Dva kolokvija. Kratki međuispiti. Usmeni ispit.

Obavezna literatura
  1. Python Documentation. https://docs.python.org/.
  2. Jurafsky, Daniel; Martin, James H. Speech and Language Processing (2nd Edition). New Jersey: Prentice Hall, 2008.
Dopunska literatura
  1. Bird, Steven; Klein, Ewan, Loper, Edward. Natural Language Processing with Python. O'Reilly Media, 1999.
  2. Tadić, Marko. Jezične tehnologije i hrvatski jezik. Zagreb: Ex libris, 2003.
  3. Manning, Christopher D.; Schuetze, Hinrich. Foundations of Statistical Natural Language Processing. The MIT Press, 2002.

Obavezan predmet na studijima
  1. Informacijske znanosti, sveučilišni preddiplomski jednopredmetni studij, 3. semestar
Izborni predmet na studijima
  1. Informacijske znanosti, sveučilišni preddiplomski dvopredmetni studij, 3. semestar