Naziv
Programiranje za društvene i humanističke znanosti
Organizacijska jedinica
Združeni diplomski studij Digitalna lingvistika
ECTS
5
Šifra
255260
Semestri
zimski
Satnica
Predavanja
30
Vježbe u praktikumu
30

Cilj
Studenti se upoznaju s osnovnim metodama automatske obrade tekstualnih podataka na razini niza podataka.U teorijskom se dijelu
kolegija upoznaju načine kodiranja teksta kao i najčešći datotečni formati zapisa teksta. Nadalje se daje uvod u osnove statističke
obrade jezika te primjere statističkog modeliranja jezika.Praktični se dio sastoji od upoznavanja osnova programiranja u
interpretiranom jeziku Python, programiranja nad sekvencijalnim tipovima podataka, struktura, regularnih izraza, računanja čestotnih
razdioba sekvenci te primjera izgradnje jezičnih statističkih modela s primjenom. Završni zadatak predstavlja potvrdu usvojenosti
elemenata kolegija uvedenima tijekom semestra.
Sadržaj
  1. Uvodno predavanje. Opis kolegija. Programski jezik Python.
  2. Osnove kodiranja teksta. Osnove programiranja u Pythonu.
  3. Kodne stranice stalne duljine zapisa. Osnovne strukture podataka u Pythonu.
  4. Unicode i oblici kodiranja Unicode standarda. Rad s tekstualnim datotekama u Pythonu.
  5. Rad s modulima.
  6. Računanje čestotnih razdioba.
  7. Prvi kolokvij.
  8. Osnove regularnih izraza.
  9. Napredni regularni izrazi.
  10. Čestotne razdiobe n-grama znakova i riječi.
  11. Osnove modeliranja jezika.
  12. Rad na dizajnu završnog zadatka.
  13. Implementacija završnog zadatka.
  14. Implementacija završnog zadatka.
  15. Predstavljanje završnog zadatka.

Ishodi učenja
  1. Objasniti osnove pohrane i obrade teksta u računalu.
  2. Objasniti osnove programiranja nad tekstnim podacima.
  3. Objasniti osnove statističkog modeliranja jezičnih fenomena.
  4. Usporediti razne jezične modele.
Metode podučavanja
predavanja, vježbe, mještovito e-učenje, samostalni zadaci, multimedija i mreža
Metode ocjenjivanja
pohađanje nastave, kolokvij, istraživanje, praktični rad, usmeni ispit

Obavezna literatura
  1. Jurafsky, Daniel; Martin, James H. Speech and Language Processing (2nd Edition). New Jersey: Prentice Hall, 2008.
  2. Python Documentation. https://docs.python.org/.
  3. Tadić, Marko. Jezične tehnologije i hrvatski jezik. Zagreb: Ex libris, 2003.
Dopunska literatura
  1. Bird, Steven; Klein, Ewan, Loper, Edward. Natural Language Processing with Python. O'Reilly Media, 1999.
  2. Manning, Christopher D.; Schuetze, Hinrich. Foundations of Statistical Natural Language Processing. The MIT Press, 2002.

Izborni predmet na studijima
  1. Digitalna lingvistika, sveučilišni diplomski jednopredmetni studij, 1. semestar