Naziv
Obrada prirodnog jezika
Organizacijska jedinica
Primijenjena kognitivna znanost
ECTS
5
Šifra
266319
Semestri
ljetni
Satnica
Predavanja
15
Seminar
15
Auditorne vježbe
15

Cilj
Studenti će steći temeljna znanja i praktične vještine u području računalne obrade prirodnih jezika i bit će osposobljeni samostalno modelirati postupke leksičke i sintaksne analize prirodnih jezika. Također će znati koristiti alate za ekstrahiranje informacija iz tekstova napisanih u prirodnom jeziku. NooJ NLP okruženje će se koristiti za demonstraciju automata konačnih stanja (FSA), rekurzivnih prijelaznih mreža (RTN), poboljšanih rekurzivnih prijelaznih mreža (ERTN), beskontekstnih gramatika (CFG) i kontekstnih gramatika (CSG). Perl i NooJ regularni izrazi će se koristiti za upite nad nestrukturiranim tekstovima. Lokalne gramatike dizajnirat će se pomoću grafičkog i tekstualno sučelja (flektivne, derivacijske, leksičke, ortografske, morfološke, terminološke, sintaktičke, semantičke i prijevodne gramatike). Oprimjerit će se uklanjanje višeznačnosti i izgradnja konkordancija. Izrađeni algoritmi će se evaluirati (preciznost, odziv, f-mjera) i međusobno uspoređivati. Raspravljat će se o NLP-u u kontekstu velikih podataka a bit će govora i o teoriji i primjeni LLM-ova i razgovornih agenata.

Studenti će razvijati analitički pristup u razumijevanju i rješavanju problema u području obrade prirodnog jezika. Kroz evaluaciju algoritama i rasprave o primjeni NLP-a, studenti će razvijati kritičko razmišljanje. Studenti će razviti vještine primjene naučenih koncepta na stvarnim tekstualnim podacima a kroz diskusije i projekte, studenti će razvijati suradničke vještine. Kolegij obuhvaća različite aspekte jezika, računalstva i statistike, potičući interdisciplinarni pristup.
Sadržaj
  1. Što je obrada prirodnog jezika i čime se bavi?
  2. Korpusi; evaluacija i mjere (zlatni standard, PARSEVAL, preciznost, odziv, f-mjera).
  3. Korištenje alata za obradu jezika; Grafičko/tekstualno sučelje gramatika.
  4. Postavljanje upita nad tekstom.
  5. POS označavanje: statistički i ne-statistički pristup
  6. POS označavanje i rječnici
  7. Flektivne i derivacijske gramatike (opis paradigmi)
  8. Ugniježđena pravila
  9. Generiranje riječi; Prepoznavanje novih riječi iz već postojećih
  10. Produktivna morfologija (posebne oznake u prepoznavaču/označivaču, operacija provjere jednakosti, varijable, provjera rezultata i traženje grešaka)
  11. Višesložni izrazi (rječnik, gramatika); Jezične varijacije
  12. Regularne gramatike; Regularni izrazi
  13. Beskontekstne gramatike
  14. Kontekstne gramatike
  15. NLP u analizi društvenih medija

Ishodi učenja
  1. Izraditi rječnik za strojnu obradu teksta.
  2. Dizajnirati i testirati morfološku gramatiku.
  3. Dizajnirati i testirati sintaksnu gramatiku.
  4. Evaluirati sustav za obradu jezika.
  5. Ekstrahirati informacije iz teksta
  6. Analizirati rezultate algoritma za obradu jezika
Metode podučavanja
1. izravno poučavanje
2. samostalno učenje
3. poučavanje vođenim otkrivanjem i raspravom
4. ERR okvir za poučavanje
Metode ocjenjivanja
1. kratki testovi znanja
2. projektni zadatci
3. sudjelovanje na nastavi

Obavezna literatura
  1. Daniel Jurafsky, James H. Martin (2019). Speech and Language Processing (3rd edition). Prentice Hall, USA.
  2. Alexander Clark, Chris Fox, Shalom Lappin (2010). The Handbook of Computational Linguistics and Natural Language Processing. Wiley- Blackwell, USA.
  3. Christopher D. Manning, Hinrich Schütze (1999). Foundations of Statistical Natural Language Processing. MIT Press, USA.
Dopunska literatura
  1. Silberztein, M.: Formalizing Natural Languages: The NooJ Approach, Wiley, 2016.

Izborni predmet na studijima
Novi i reformirani studiji
  1. Primijenjena kognitivna znanost, sveučilišni diplomski jednopredmetni studij, 4. semestar