Naziv
Statističke metode u lingvistici
Organizacijska jedinica
Odsjek za lingvistiku
ECTS
5
Šifra
117629
Semestri
zimski
Nastavnici
Satnica
Predavanja
30
Seminar
15

Cilj
Uputiti studente u osnove statističke metodologije za proučavanje jezika. Teorijske postavke potkrijepljene su konkretnim podacima iz jezičnih korpusa. Praktični dio rada usmjeren je na statističko prepoznavanje kolokacija na osnovu jezičnih podataka iz nekoliko različitih korpusa primjenom različitih metodologija. Također je cilj upoznati studente sa suvremenim statističkim metodama koje se koriste za obradu prirodnog jezika.
Sadržaj
  1. Osnovni statistički pojmovi i uporaba statistike u lingvistici i proučavanju jezičnih jedinica.
  2. Čestote pojavljivanja pojavnica i analiza čestota pojavnica i dvopojavnica iz korpusa.
  3. Teorija vjerojatnosti, uvjetna i nezavisna vjerojatnost, primjena vjerojatnosti u proučavanju jezika.
  4. Mjere srednjih vrijednosti i disperzija podataka.
  5. Raspodjela podataka i karakteristike raspodjele.
  6. Testiranje statističkih hipoteza i T-test.
  7. Utvrđivanje kolokacijskog odnosa među pojavnicama s pomoću T-testa.
  8. Uzajamna obavijesnost i primjena uzajamne obavijesnosti u lingvistici.
  9. N-gramski jezični modeli.
  10. Skriveni Markovljev Model (Hidden Markov Model) i opis HMM označivača.
  11. Uležišta riječi i neuronske mreže.
  12. Prikupljanje podataka za samostalni studentski rad na konkretnom dodijeljenom zadatku.
  13. Prikupljanje podataka za samostalni studentski rad na konkretnom dodijeljenom zadatku.
  14. Prikupljanje podataka za samostalni studentski rad na konkretnom dodijeljenom zadatku.
  15. Prikupljanje podataka za samostalni studentski rad na konkretnom dodijeljenom zadatku. Izrađeni rad treba biti opisan u seminarskom radu.

Ishodi učenja
  1. Definirati temeljne statističke pojmove potrebne za proučavanje odnosa među jezičnim jedinicama.
  2. Opisati statističke pristupe namijenjene proučavanju jezične građe.
  3. pismeno i usmeno oblikovati vlastita teorijska i empirijska manja istraživanja za potrebe studija, konferencija te objavljivanja u znanstvenim i stručnim časopisima
  4. procijeniti primjenljivost pojedinih računalnolingvističkih metoda pri obradbi jezične građe
  5. samostalno formulirati zaključke o jezičnim pojavnostima temeljene na kvantitativnom supojavljivanju jezičnih jedinica te temeljem toga donositi zaključke o načelima ustroja pojmovnih struktura
  6. Samostalno formulirati zaključke temeljene na kvantitativnom supojavljivanju jezičnih jedinica.
  7. objasniti temeljne teorijske i metodološke poveznice kognitivne lingvistike s drugim srodnim znanstvenim disciplinama, ponajprije psiholingvistikom i računalnom lingvistikom
  8. samostalno formulirati zaključke o odnosima među jezičnim elementima temeljem podatkovno utemeljenih empirijskih istraživanja
  9. Prikupiti osnovna znanja potrebna za razumijevanje N-gramskih jezičnih modela.
  10. Prikupiti osnovna znanja potrebna za razumijevanje primjene neuronskih mreža uležišta riječi.
Metode podučavanja
Teorijski dio nastave izvodi se u računalnoj učionici. Svaka teorijska cjelina popraćena je konkretnim primjerima koji se prikazuju na računalu. U drugom dijelu nastave svaki student dobiva specifičan zadatak kojeg izvodi na računalu uz nadzor nastavnika. Kvaliteta izrađenog zadatka se ocjenjuje.
Metode ocjenjivanja
Svaki student dobiva ocjenu iz pismenog ispita. Također se ocjenjuje konkretni izrađeni zadatak. Konačna ocjena je prosjek dviju navedenih ocjena. Također je svakom studentu omogućeno polaganje ispita usmenim putem.

Obavezna literatura
  1. Manning, Christopher D.; Shütze, Hinrich (1999), Foundations of Statistical Natural Language Processing, MIT Press, Cambridge, MA, dio I i II
  2. Šošić, I., Serdar, V. (1992), Uvod u statistiku, Školska knjiga, Zagreb
  3. Petz, Boris (2004), Osnovne statističke metode za nematematičare, Naklada Slap, Jastrebarsko
  4. Božo Bekavac, Marko Tadić (2008), A Generic Method for Multi Word Extraction from Wikipedia , Proceedings of the 30th International Conference on INFORMATION TECHNOLOGY INTERFACES ITI 2008, Cavtat, Croatia, str. 663-669
Dopunska literatura

Obavezan predmet na studijima
  1. Lingvistika, sveučilišni diplomski dvopredmetni studij
Izborni predmet na studijima
  1. Lingvistika, sveučilišni diplomski dvopredmetni studij
Fakultetska ponuda
  • Diplomski studij: Zimski semestar