Uvod u obradu prirodnog jezika

Naziv
Uvod u obradu prirodnog jezika
Organizacijska jedinica
Odsjek za informacijske i komunikacijske znanosti
ECTS bodovi
6
Šifra
35933
Semestri izvođenja
ljetni
Jezik izvođenja
Hrvatski
Satnica
Predavanja
30
Laboratorijske vježbe
30

Cilj
Cilj kolegija je dati studentima osnovne smjernice i postavke računalne obrade prirodnog jezika. Također, cilj je podučiti ih korištenju prirodnog jezika (hrvatskog, engleskog, itd.) iz računalne perspektive. Studenti će se upoznati sa morfološkom analizom i generiranjem, sintaktičkom analizom i semantičkom interpretacijom jezika te sa simboličkim i statističkim pristupom obradi prirodnog jezika. Kroz niz tjednih tema studenti će dobiti uvid u raznolikost područja i širinu primjene metoda računalne obrade prirodnog jezika. Praktičnim radom na tjednim zadatcima tijekom semestra (15 zadataka) ovladat će konkretnom primjenom teorijskog znanja da bi na kraju semestra mogao opisati jednostavni sustav obrade prirodnog jezika koji se temelji na bilo kojoj od razina obrade prirodnog jezika te biti sposoban pokazati mjesta morfološke, sintaktičke i semantičke obrade jezika.
Sadržaj
  1. Naslov: Uvodno predavanje o kolegiju. Kratak opis: Ciljevi obrade prirodnog jezika. Povijest. Pregled područja koje je po svojoj prirodi interdisciplinarno i usko povezano s lingvistikom, kognitivnom znanošću, psihologijom, filozofijom i matematikom, posebice logikom. Računalna znanost povezuje obradu jezika s teorijom formalnih jezika, strojnim učenjem i interakcijom između čovjeka i računala. Interdisciplinarnost je ključni pojam jer lingvistika nudi modeli jezika te apstrahiranje onog što
  2. Naslov: Fonetika i fonologija Kratak opis: Razine jezične analize. Prva razina – fonetika. Odnos fonetike i fonologije. Definicija fonema, alofona, podjela glasova po načinu tvorbe, zvučnosti i mjestu tvorbe. IPA. Kako nastaje govor, koartikulacija, obilježja govora, zvučni valovi, oscilogram, osnovna frekvencija, spektrogram. Računalna obrada govora: aplikacije za automatsko prepoznavanje govora i automatsku sintezu teksta u govor.
  3. Naslov: Odnos pisma i jezika. Jezični alati i korpusi. Računalni korpusi. Računalni učenički korpusi. Kratak opis: Tipovi pisma i faze razvoja pisma, fonološki i nefonološki sustavi, odnos glasa i slova u pismima, usporedba pisama, ASCII kod, UNICODE, definicija korpusa, korpusi za različite jezike i svrhe. Hrvatski nacionalni korpus, Hrvatska jezična riznica.
  4. Naslov: Prirodni jezici i pretraživanje. Pretraživanje računalnih korpusa. Kratak opis: Imenici, tražilice, metatražilice, nevidljivi web. Internetske tražilice utemeljene na prirodnom jeziku. Napredno pretraživanje interneta korištenjem lingivističkih obilježja. Specijalizirane baze podataka i njihovo pretraživanje, pronalaženje nevidljivog weba.
  5. Naslov: Regularni izrazi u obradi prirodnog jezika. Kratak opis: Regularni izrazi u pretraživanju baza. Metode evaluacije pretraživanja: preciznost i odziv. Osnovni pojmovi regularnih izraza: unarni, binarni operatori, tvorba regularnih izraza, alati s regularnim izrazima, regularni izrazi u Wordu.
  6. Naslov: Regularni izrazi u obradi prirodnog jezika - nastavak. Kratak opis: Pretraživanje korpusa regularnim izrazima. Bonito i pretraživanje hrvatskog nacionalnog korpusa.
  7. Naslov: Računalna morfologija. Kratak opis: Osnove morfologije hrvatskog i engleskog jezika. Definicija morfologije, morfema, alomorfa, afiksa, infiksa, tvorbeni i oblični morfemi u hrvatskom i engleskom jeziku.
  8. Naslov: Računalna morfologija- nastavak Kratak opis: Derivacijska i oblična morfologija u hrvatskom i engleskom jeziku na primjeru imenica, glagola i pridjeva. Morfološka obrada: računalna analiza i računalno generiranje oblika.
  9. Naslov: Morfologija i automati Kratak opis: morfološki analizatori i generatori oblika, automati s konačnim brojem stanja, pretvornici.
  10. Naslov: Računalna sintaksa: uvod Kratak opis: Osnovni pojmovi računalne sintakse: vrste riječi, otvoreni i zatvoreni vokabular, kategorije sintagmi i oznake vrsta riječi (part of speech), rečenične kategorije.
  11. Naslov: Računalna sintaksa- nastavak. Kratak opis: Sintaktička stabla i parsiranje, banke stabala, valencijski leksikoni.
  12. Naslov: Uvod u računalne gramatike. Kratak opis: Opis računalnih gramatika. Regularna, beskontekstna, kontekstna, gramatika neograničenih produkcija. Bezokolinska gramatika: sastavnice, završne i nezavršne oznake, pravila.
  13. Naslov: Provjernici pravopisa i gramatike. Kratak opis: Način funkcioniranja i problemi provjernika pravopisa i gramatike. Interaktivni i automatski provjernici, otkrivanje pogrešaka i ispravak pogrešaka, tehnike provjere pravopisa: pronalaženje nepostojećih riječi, ispravak pogrešno napisanih riječi bez konteksta, ispravljanje riječi s obzirom na kontekst i provjera gramatičke ispravnosti.
  14. Naslov: CALL - tehnike strojno potpomognutog učenja jezika Kratak opis: Povijest CALL-a, prednosti i nedostatci, uloga računala u podučavanju tijekom posljednjih desetljeća,
  15. Naslov: Uvod u semantiku prirodnog jezika. Kratak opis: Kompozicijska semantika, sematičke uloge, teorija dubinskih padeža, padežni okviri glagola, sintaktički i semantički opis padežnih okvira u hrvatskom.

Ishodi učenja
  1. S razumijevanjem pratiti vodeće trendove i razvoj računalnih tehnologija te sustava za računalnu obradu prirodnog jezika
  2. Upotrijebiti terminologiju računalne obrade prirodnog jezika u području informacijskih znanosti
  3. Oblikovati nacrt sustava u svakom od područja računalne obrade jezika (računalna fonetika i fonologija, morfologija, sintaksa i semantika)
  4. Koristiti se odgovarajućim aplikacijama koje ilustriraju svako od područja računalne obrade jezika
  5. Napredno pretraživati baze i internetske tražilice koristeći lingivistička obilježja
  6. Pretraživati korpuse tekstova korištenjem regularnih izraza
  7. Ispravno i s razumijevanjem koristiti automatske pretvornike pravopisa i gramatike te biti sposobni pobojšati te sustave
Metode podučavanja
Predavanja, vježbe
Metode ocjenjivanja
Vježbe se ocjenjuju na sljedeći način: 0% = Više od 6 propuštenih vježbi. 10% = Više od 5 propuštenih vježbi. 20% = Više od 4 propuštene vježbe. 30% = Više od 3 propuštene vježbe. 40% = Više od 2 propuštene vježbe. 50% = Redovito pohađa vježbe, predao/la svih 15 vježbi na kolegiju Završni pismeni ispit se ocjenjuju na sljedeći način manje od 50% točnih odgovora = 0% ocjene od 50% do 55% = 10% ocjene od 56% do 61% = 15% ocjene od 62% do 67% = 20% ocjene od 68% do 73% = 25% ocjene od 74% do 79% = 30% ocjene od 80% do 84% = 35% ocjene od 85% do 89% = 40% ocjene od 90% do 94% = 45% ocjene od 95% do 100% = 50% ocjene Konačna se ocjena dobiva na sljedeći način: 89 − 100% 5 (izvrstan) 76 − 88,9% 4 (vrlo dobar) 63 − 75,9% 3 (dobar) 50 − 62,9% 2 (dovoljan)

Obavezna literatura
  1. Marko Tadić. Jezične tehnologije i hrvatski jezik. Exlibris, Zagreb 2003.
  2. Mikelić Preradović, Nives. Pristupi izradi strojnog tezaurusa za hrvatski jezik / doktorska disertacija. Zagreb: Filozofski fakultet, 2008.
Dopunska literatura
  1. James Allen. Natural Language Understanding. 2nd edition.
  2. Marko Tadic. Problemi računalne obrade imeničnih oblika u hrvatskome. Suvremena lingvistika 34, (1992), str. 301-308.
  3. Marko Tadic. Building the Croatian Morphological Lexicon. Proceedings of the EACL2003 Workshop on Morphological Processing of Slavic Languages (Budimpešta 2003), ACL, str. 41-46.
  4. Robert Dale, Hermann Moisl and Harold Somers, eds. Handbook of Natural Langauge Processing. MIT Press, 2000.
  5. Lucja M. Iwanska and Stuart C. Shapiro, eds. Natural Language Processing and Knowledge Representation. MIT Press, 2000.
  6. Roland R. Hausser. Foundations of Computational Linguistics: Human-Computer Communication in Natural Language. Springer Verlag, 2001.
  7. Daniel Jurafsky & James. H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Prentice Hall, NJ, 2000.
  8. Tepeš, B. Računarska lingvistika, Radovi Zavoda za informacijske studije, Knjiga 9., Zagreb, 2001.
  9. Roland R. Hausser. Foundations of Computational Linguistics: Human-Computer Communication in Natural Language. Springer Verlag, 2001.

Izborni predmet na studijima
  1. Informacijske znanosti, sveučilišni preddiplomski jednopredmetni studij, 2. semestar
  2. Informacijske znanosti, sveučilišni preddiplomski dvopredmetni studij, 2. semestar