Studenti se upoznaju s osnovnim metodama automatske obrade tekstualnih podataka na razini niza podataka, odnosno poruke kodirane prirodnim jezikom.
U teorijskom se dijelu kolegija upoznaju nači ni kodiranja teksta kao i najčešći datotečni formati zapisa teksta. Nadalje se daje uvod u osnove statističke obrade jezika te primjere statističkog modeliranja jezika.
Praktični se dio sastoji od upoznavanja osnova programiranja u interpretiranom jeziku Python, programiranja nad sekvencijalnim tipovima podataka, struktura, regularnih izraza, računanja čestotnih razdioba sekvenci te primjera izgradnje jezičnih statističkih modela s primjenom.
Prvim se kolokvijem provjerava usvajanje osnova programiranja u Pythonu. Završni zadatak predstavlja potvrdu usvojenosti elemenata kolegija uvedenima tijekom semestra.
Studenti moraju upoznati osnovne metode računalne pohrane i obrade teksta. Također moraju svladati osnovne metode statističke analize jezičnog uzorka kao i primjere modeliranja jezika za rješavanje primjera stvarnih problema.
- Uvodno predavanje. Opis kolegija. Programski jezik Python.
- Osnove kodiranja teksta. Osnove programiranja u Pythonu.
- Kodne stranice stalne duljine zapisa. Osnovne strukture podataka u Pythonu.
- Unicode i oblici kodiranja Unicode standarda. Rad s teksualnim datotekama u Pythonu.
- Rad s modulom codecs, rad s modulima.
- Računanje čestotnih razdioba.
- Prvi kolokvij.
- Osnove regularnih izraza.
- Napredni regularni izrazi.
- Čestotne razdiobe n-grama znakova i riječi.
- Osnove modeliranja jezika.
- Završni zadatak.
- Zavšni zadatak.
- Završni zadatak.
- Drugi kolokvij.