Obrada teksta i jezika

Naziv
Obrada teksta i jezika
Organizacijska jedinica
Odsjek za informacijske i komunikacijske znanosti
ECTS bodovi
6
Šifra
51387
Semestri izvođenja
zimski
Jezik izvođenja
Hrvatski
Satnica
Predavanja
30
Vježbe u praktikumu
30

Cilj
Studenti se upoznaju s osnovnim metodama automatske obrade tekstualnih podataka na razini niza podataka, odnosno poruke kodirane prirodnim jezikom. U teorijskom se dijelu kolegija upoznaju nači ni kodiranja teksta kao i najčešći datotečni formati zapisa teksta. Nadalje se daje uvod u osnove statističke obrade jezika te primjere statističkog modeliranja jezika. Praktični se dio sastoji od upoznavanja osnova programiranja u interpretiranom jeziku Python, programiranja nad sekvencijalnim tipovima podataka, struktura, regularnih izraza, računanja čestotnih razdioba sekvenci te primjera izgradnje jezičnih statističkih modela s primjenom. Prvim se kolokvijem provjerava usvajanje osnova programiranja u Pythonu. Završni zadatak predstavlja potvrdu usvojenosti elemenata kolegija uvedenima tijekom semestra. Studenti moraju upoznati osnovne metode računalne pohrane i obrade teksta. Također moraju svladati osnovne metode statističke analize jezičnog uzorka kao i primjere modeliranja jezika za rješavanje primjera stvarnih problema.
Sadržaj
  1. Uvodno predavanje. Opis kolegija. Programski jezik Python.
  2. Osnove kodiranja teksta. Osnove programiranja u Pythonu.
  3. Kodne stranice stalne duljine zapisa. Osnovne strukture podataka u Pythonu.
  4. Unicode i oblici kodiranja Unicode standarda. Rad s teksualnim datotekama u Pythonu.
  5. Rad s modulom codecs, rad s modulima.
  6. Računanje čestotnih razdioba.
  7. Prvi kolokvij.
  8. Osnove regularnih izraza.
  9. Napredni regularni izrazi.
  10. Čestotne razdiobe n-grama znakova i riječi.
  11. Osnove modeliranja jezika.
  12. Završni zadatak.
  13. Zavšni zadatak.
  14. Završni zadatak.
  15. Drugi kolokvij.

Ishodi učenja
  1. osnove pohrane i obrade teksta u računalu
  2. osnove programiranja nad tekstnim podacima
  3. osnove statističkog modeliranja jezičnih fenomena
Metode podučavanja
Predavanje teorije "ex cathedra". Vježbe na računalima.
Metode ocjenjivanja
Dva kolokvija. Kratki međuispiti. Usmeni ispit.

Obavezna literatura
  1. https://omega.ffzg.hr/course/view.php?id=190
Dopunska literatura

Obavezan predmet na studijima
  1. Informacijske znanosti, sveučilišni preddiplomski jednopredmetni studij, 3. semestar
Izborni predmet na studijima
  1. Informacijske znanosti, sveučilišni preddiplomski dvopredmetni studij, 3. semestar