Naziv
Uvod u programiranje nad tekstualnim podacima
Organizacijska jedinica
Odsjek za informacijske i komunikacijske znanosti
ECTS
4
Šifra
280623
Semestri
zimski
Satnica
Predavanja
30
Vježbe u praktikumu
30

Cilj
Studenti upoznaju osnovne metode automatske obrade tekstualnih podataka, uključujući načine kodiranja teksta, najčeščće datotečne formate zapisa teksta te osnove statističke obrade teksta. Praktični se dio sastoji od upoznavanja osnova programiranja u interpretiranom jeziku Python nad tekstualnim podacima. Završni zadatak predstavlja potvrdu usvojenosti elemenata kolegija uvedenima tijekom semestra.
Sadržaj
  1. Uvodno predavanje. Opis kolegija. Programski jezik Python.
  2. Osnove kodiranja teksta. Osnove programiranja u Pythonu.
  3. Kodne stranice stalne duljine zapisa. Osnovne strukture podataka u Pythonu.
  4. Unicode i oblici kodiranja Unicode standarda. Rad s tekstualnim datotekama u Pythonu.
  5. Rad s rječnicima.
  6. Rad s modulima.
  7. Računanje čestotnih razdioba.
  8. Međuispit.
  9. Osnove regularnih izraza.
  10. Napredni regularni izrazi.
  11. Čestotne razdiobe n-grama znakova i riječi.
  12. Rad na dizajnu završnog zadatka.
  13. Implementacija završnog zadatka.
  14. Implementacija završnog zadatka.
  15. Implementacija završnog zadatka.

Ishodi učenja
  1. Objasniti osnove pohrane i obrade teksta u računalu.
  2. Opisati karakteristike osnovnih struktura podataka.
  3. Objasniti osnove programiranja nad tekstualnim podacima.
  4. Implementirati u programskom jeziku osnovne statističke teorijske koncepte obrade tekstualnih podataka.
Metode podučavanja
Predavanja, vježbe na računalima, sustav učenja na daljinu.
Metode ocjenjivanja
Međuispiti. Završni zadatak. Usmeni ispit.

Obavezna literatura
  1. Jurafsky, Daniel; Martin, James H. Speech and Language Processing (2nd Edition). New Jersey: Prentice Hall, 2008.
  2. Python Documentation. https://docs.python.org/.
  3. Tadić, Marko. Jezične tehnologije i hrvatski jezik. Zagreb: Ex libris, 2003.
Dopunska literatura
  1. Bird, Steven; Klein, Ewan, Loper, Edward. Natural Language Processing with Python. O'Reilly Media, 1999.
  2. Manning, Christopher D.; Schuetze, Hinrich. Foundations of Statistical Natural Language Processing. The MIT Press, 2002.

Izborni predmet na studijima
Novi i reformirani studiji
  1. Informacijske znanosti, sveučilišni prijediplomski jednopredmetni studij, 1., 3. semestar
  2. Etnologija i kulturna antropologija, sveučilišni prijediplomski dvopredmetni studij, 3. semestar
  3. Filozofija, sveučilišni prijediplomski dvopredmetni studij, 1. semestar
  4. Informacijske znanosti, sveučilišni prijediplomski dvopredmetni studij, 3. semestar
  5. Poljski jezik i književnost, sveučilišni prijediplomski dvopredmetni studij, 3. semestar
  6. Portugalski jezik i književnost, sveučilišni prijediplomski dvopredmetni studij, 1., 3. semestar
  7. Povijest, sveučilišni prijediplomski dvopredmetni studij, 3. semestar
  8. Rumunjski jezik i književnost, sveučilišni prijediplomski dvopredmetni studij, 3. semestar
  9. Sinologija, sveučilišni prijediplomski dvopredmetni studij, 3. semestar