Cilj kolegija je dati studentima osnovne smjernice i postavke računalne obrade prirodnog jezika. Također, cilj je podučiti ih korištenju prirodnog jezika (hrvatskog, engleskog, itd.) iz računalne perspektive. Studenti će se upoznati sa morfološkom analizom i generiranjem, sintaktičkom analizom i semantičkom interpretacijom jezika te sa simboličkim i statističkim pristupom obradi prirodnog jezika. Kroz niz tjednih tema studenti će dobiti uvid u raznolikost područja i širinu primjene metoda računalne obrade prirodnog jezika. Praktičnim radom na tjednim zadatcima tijekom semestra (15 zadataka) ovladat će konkretnom primjenom teorijskog znanja da bi na kraju semestra mogao opisati jednostavni sustav obrade prirodnog jezika koji se temelji na bilo kojoj od razina obrade prirodnog jezika te biti sposoban pokazati mjesta morfološke, sintaktičke i semantičke obrade jezika.
- Naslov: Uvodno predavanje o kolegiju.
Kratak opis: Ciljevi obrade prirodnog jezika. Povijest. Pregled područja koje je po svojoj prirodi interdisciplinarno i usko povezano s lingvistikom, kognitivnom znanošću, psihologijom, filozofijom i matematikom, posebice logikom. Računalna znanost povezuje obradu jezika s teorijom formalnih jezika, strojnim učenjem i interakcijom između čovjeka i računala. Interdisciplinarnost je ključni pojam jer lingvistika nudi modeli jezika te apstrahiranje onog što
- Naslov: Fonetika i fonologija
Kratak opis: Razine jezične analize. Prva razina – fonetika. Odnos fonetike i fonologije. Definicija fonema, alofona, podjela glasova po načinu tvorbe, zvučnosti i mjestu tvorbe. IPA. Kako nastaje govor, koartikulacija, obilježja govora, zvučni valovi, oscilogram, osnovna frekvencija, spektrogram. Računalna obrada govora: aplikacije za automatsko prepoznavanje govora i automatsku sintezu teksta u govor.
- Naslov: Odnos pisma i jezika. Jezični alati i korpusi. Računalni korpusi. Računalni učenički korpusi.
Kratak opis: Tipovi pisma i faze razvoja pisma, fonološki i nefonološki sustavi, odnos glasa i slova u pismima, usporedba pisama, ASCII kod, UNICODE, definicija korpusa, korpusi za različite jezike i svrhe. Hrvatski nacionalni korpus, Hrvatska jezična riznica.
- Naslov: Prirodni jezici i pretraživanje. Pretraživanje računalnih korpusa.
Kratak opis: Imenici, tražilice, metatražilice, nevidljivi web. Internetske tražilice utemeljene na prirodnom jeziku. Napredno pretraživanje interneta korištenjem lingivističkih obilježja. Specijalizirane baze podataka i njihovo pretraživanje, pronalaženje nevidljivog weba.
- Naslov: Regularni izrazi u obradi prirodnog jezika.
Kratak opis: Regularni izrazi u pretraživanju baza. Metode evaluacije pretraživanja: preciznost i odziv. Osnovni pojmovi regularnih izraza: unarni, binarni operatori, tvorba regularnih izraza, alati s regularnim izrazima, regularni izrazi u Wordu.
- Naslov: Regularni izrazi u obradi prirodnog jezika - nastavak.
Kratak opis: Pretraživanje korpusa regularnim izrazima. Bonito i pretraživanje hrvatskog nacionalnog korpusa.
- Naslov: Računalna morfologija.
Kratak opis: Osnove morfologije hrvatskog i engleskog jezika. Definicija morfologije, morfema, alomorfa, afiksa, infiksa, tvorbeni i oblični morfemi u hrvatskom i engleskom jeziku.
- Naslov: Računalna morfologija- nastavak
Kratak opis: Derivacijska i oblična morfologija u hrvatskom i engleskom jeziku na primjeru imenica, glagola i pridjeva. Morfološka obrada: računalna analiza i računalno generiranje oblika.
- Naslov: Morfologija i automati
Kratak opis: morfološki analizatori i generatori oblika, automati s konačnim brojem stanja, pretvornici.
- Naslov: Računalna sintaksa: uvod
Kratak opis: Osnovni pojmovi računalne sintakse: vrste riječi, otvoreni i zatvoreni vokabular, kategorije sintagmi i oznake vrsta riječi (part of speech), rečenične kategorije.
- Naslov: Računalna sintaksa- nastavak.
Kratak opis: Sintaktička stabla i parsiranje, banke stabala, valencijski leksikoni.
- Naslov: Uvod u računalne gramatike.
Kratak opis: Opis računalnih gramatika. Regularna, beskontekstna, kontekstna, gramatika neograničenih produkcija. Bezokolinska gramatika: sastavnice, završne i nezavršne oznake, pravila.
- Naslov: Provjernici pravopisa i gramatike.
Kratak opis: Način funkcioniranja i problemi provjernika pravopisa i gramatike. Interaktivni i automatski provjernici, otkrivanje pogrešaka i ispravak pogrešaka, tehnike provjere pravopisa: pronalaženje nepostojećih riječi, ispravak pogrešno napisanih riječi bez konteksta, ispravljanje riječi s obzirom na kontekst i provjera gramatičke ispravnosti.
- Naslov: CALL - tehnike strojno potpomognutog učenja jezika
Kratak opis: Povijest CALL-a, prednosti i nedostatci, uloga računala u podučavanju tijekom posljednjih desetljeća,
- Naslov: Uvod u semantiku prirodnog jezika.
Kratak opis: Kompozicijska semantika, sematičke uloge, teorija dubinskih padeža, padežni okviri glagola, sintaktički i semantički opis padežnih okvira u hrvatskom.