Naziv
Korpusna lingvistika
Organizacijska jedinica
Odsjek za lingvistiku
ECTS
5
Šifra
37170
Semestri
ljetni
Nastavnici
Satnica
Predavanja
30
Seminar
15

Cilj
Studente se uvodi u područje korpusne lingvistike, upoznaje s ulogom korpusa u današnjim istraživanjima jezika/teksta te daje praktično znanje sastavljanja, obradbe i pretraživanja korpusa.
Sadržaj
 1. Povijest korpusnih istraživanja u svijetu i u nas
 2. Uloga korpusa u istraživanju jezika
 3. Definicija korpusa
 4. Računalno podržan korpus
 5. Korpusni parametri
 6. Postupci u sastavljanju korpusa: uzorkovanje, reprezentativnost
 7. Vrste podataka pretraživih iz korpusa: abecedariji, čestotnici, konkordancije
 8. Postupci obradbe korpusa: nelingvističko obilježavanje i standardi digitalnoga zapisa
 9. Postupci obradbe korpusa: lingvističko obilježavanje (segmentacija i označavanje)
 10. Postupci obradbe korpusa: lingvističko obilježavanje (označavanje vrsta riječi, lematizacija, MSD-označavanje)
 11. Postupci obradbe korpusa: lingvističko obilježavanje (označavanje sintaktičkih uloga – banke stabala; označavanje značenja riječi i semantičkih uloga)
 12. Postupci obradbe korpusa: statističke metode
 13. Praktičan rad na pretrazi korpusa: Hrvatski nacionalni korpus i drugi (nacionalni) korpusi
 14. Praktičan rad na pretrazi korpusa: Sketch Engine / No Sketch Engine
 15. Praktičan rad na pretrazi korpusa: CQL i regularni izrazi

Ishodi učenja
 1. Usvojiti definiciju korpusa kako ga vidi suvremena korpusna lingvistika
 2. Objasniti razliku između zbirke tekstova, korpusa i računalnog korpusa
 3. Opisati različite vrste korpusa
 4. Opisati postupke sastavljanja korpusa
 5. Opisati dobivanje različitih vrsta podataka pretragom korpusa: abecedariji, čestotnici, konkordancije
 6. Usvojiti različite tipove pretrage korpusa; pretraživati korpus CQL-om i regularnim izrazima
 7. Naučiti obilježavati korpuse na različitim razinama
Metode podučavanja
Predavanje, seminar, rasprava, rješavanje zadataka, praktična primjena
Metode ocjenjivanja
Pisani ispit i rješavanje praktičnoga zadatka

Obavezna literatura
 1. Biber, D. (1998) Corpus Linguistics: Investigate Langauge Structure and Use, CUP, Cambridge.
 2. Kennedy, G.: Introduction to Corpus Linguistics, Longman, London 1998.
 3. McEnery, T. & Wilson, A. Corpus linguistics, Edinburgh Univ. Press, Edinburgh 1996, 2001
 4. Sinclair, J.: Corpus, concordance, collocation, Oxford University Press, Oxford 1991
 5. Tadić, M.: "Računalna obradba hrvatskih korpusa: povijest, stanje i perspektive", Suvremena lingvistika 43 44, 1997.
 6. Tadić, M.: Jezične tehnologije, Exlibris, Zagreb 2003.
 7. Tognini-Bonelli, E.: Corpus Linguistics at Work, Benjamins, Amsterdam 2001.
Dopunska literatura
 1. Tadić, M.: "Od korpusa do čestotnoga rječnika hrvatskoga književnog jezika", Radovi Zavoda za slavensku filologiju, 27, 1991.
 2. Tadić, M.: Računalna obradba hrvatskoga i nacionalni korpus, Suvremena lingvistika 41-42, 1996.
 3. Tadić, M.: "Raspon, opseg i sastav korpusa hrvatskoga jezika", Filologija 30-31, Zagreb 1998
 4. Tadić, M: "New version of the Croatian National Corpus" u: Hlaváčková, D. ; Horák, A.; Osolsobě, K.; Rychlý, P. (ur.) After Half a Century of Slavonic Natural Language Processing, Masaryk University, Brno 2009., str. 199-205

Izborni predmet na studijima
 1. Lingvistika, sveučilišni prijediplomski dvopredmetni studij, 2., 4., 6. semestar
Fakultetska ponuda
 • Prijediplomski studij: Ljetni semestar