Naziv
Digitalna obrada govora
Organizacijska jedinica
Primijenjena kognitivna znanost
ECTS
5
Šifra
266306
Semestri
zimski
Satnica
Predavanja
30
Laboratorijske vježbe
15

Cilj
Predmet opisuje osnovne principe digitalne obrade govora i njene primjene u telekomunikacijma i multimediji. Postupci modeliranja govornog signala, parametarski modeli. Analiza govora, estimacija parametara modela vokalnog trakta i modela pobude. Pregled najznačajnijih modela i njihovih specifičnosti. Kodiranje govora i primjene. Automatsko prepoznavanje govora, govornika i jezika. Vektori značajki, kepstralna analiza. Statistički modeli za prepoznavanje, skriveni Markovljevi modeli, modeli s Gaussovim mješavinama; postupci treniranja parametara modela. Akustički i leksički modeli. Sinteza govora, difonska, trifonska. Normalizacija i modifikacija govora. Primjeri komercijalnih sustava za kodiranje, prepoznavanje i sintezu.
Sadržaj
  1. Predavanja (P): Uvod u digitalnu obradu govora i njene primjene, Postupci za automatsko prepoznavanje govora, govornika i jezika, Osnove digitalne sinteze govornog signala, sustavi za Text-to-Speech, Sustavi za dijalog čovjeka i računala, primjene u virtualnoj stvarnosti; Lab. vježbe (L): Pog: Pregled primjena postupaka digitalne obradbe govora, Pog: Osnove procesa nastajanja govora, Pog: Nauke o govoru i jeziku.
  2. Predavanja (P): Proces nastajanja govora; Osnove fizikalnog modela; Lab. vježbe (L): Pog. 1: Snimanje govornih signala korištenjem zvučnih kartica.
  3. Predavanja (P): Akustički model vokalnog trakta; Lab. vježbe (L): Pog. 2: Analiza svojstava govornih signala u vremenskoj domeni.
  4. Predavanja (P): Modeliranje pobudnog signala vokalnog trakta; Lab. vježbe (L): Pog. 3: Spektralna analiza govora i spektrogrami i Pog. 4: Analiza formantne strukture govora.
  5. Predavanja (P): Model vokalnog trakta sa spojenim cijevima, Vremenski diskretan model vokalnog trakta; Lab. vježbe (L): Pog. 5: Automatska klasifikacija samoglasnika na osnovu formantne strukture.
  6. Predavanja (P): Linearna predikcija i primjena za modeliranje govornog signala; Lab. vježbe (L): Pog. 6: Automatska klasifikacija govornika na osnovu formantne strukture.
  7. Predavanja (P): Autokorelacijski postupak određivanja LPC modela; Lab. vježbe (L): Pog. 7: Postupci linearne predikcije.
  8. Međuispit (kolokvij)
  9. Predavanja (P): Svojstva LPC modela određenog postupkom autokorelacije; Lab. vježbe (L): Pog. 8: Primjena autokorelacijskog postupka izračunavanja prediktora za modeliranje govornog signala i Pog. 9: Levinson-Durbinov algoritam i analiza dobitka predikcijskog kodiranja.
  10. Predavanja (P): Metoda kovarijance za određivanje LPC modela, Parametarski skupovi za opis vremenski krakotrajnog modela spektra govornog signala; Lab. vježbe (L): Pog. 10: Kovarijantni postupak linearne predikcije.
  11. Predavanja (P): Homomorfna obrada govornog signala; Lab. vježbe (L): Pog. 11: Utjecaj kvantizacije koeficjenata LPC filtra.
  12. Predavanja (P): Primjena kepstralne analize na govorni signal; Lab. vježbe (L): Pog. 12: Homomorfna analiza govornog signala.
  13. Predavanja (P): Uvod u automatsko prepoznavanje govora, Postupci analize govora za automatsko prepoznavanje; Lab. vježbe (L): Pog. 13: Određivanje zvučnosti i osnovne frekvencije titranja glasnica.
  14. Predavanja (P): Vektori značajki, statistički modeli i postupci klasifikacije za automatsko prepoznavanje govora; Lab. vježbe (L): Pog. 14: Primjer kompletnog kodera govornog signala.
  15. Završni ispit za kontinuiranu provjeru znanja

Ishodi učenja
  1. Prepoznati značaj digitalne obradbe govora i njene primjene.
  2. Opisati način nastajanja govornog signala i pripadne fizikanle modele.
  3. Usporediti načine modeliranja govornog signala u vremenski kontinuiranoj i diskretnoj domeni.
  4. Primijeniti postupke linearne predikcije u svrhu modeliranja govora.
  5. Upotrijebiti homomorfnu obradu govora u svrhu estimacije pobude i modela vokalnog trakta.
  6. Razviti jednostavne algoritme obradbe govora korištenjem Matlaba.
  7. Analizirati utjecaj kvantizacije koeficijenata modela na njegovu točnost i stabilnost
  8. Primijeniti postupke prepoznavanja samoglasnika i glasa govornika.
Metode podučavanja
Predavanja: Nastava na predmetu organizirana je kroz dva nastavna ciklusa. Prvi ciklus se sastoji od 7 tjedana nastave i međuispita (kolokvija), dok drugi ciklus sadržava šest tjedna nastave i završni ispit. Nastava se provodi kroz ukupno 15 tjedana s tjednim opterećenjem od 2 sata.
Laboratorijske vježbe: Tokom semestra organizirane su laboratorisjke vježbe u skladu s tjednim planom nastave. Ove vježbe služe kao pomoć studentima u samostalnom provođenju preostalih programskih vježbi na predmetu.
Samostalni rad: Nastavno opterećenje na predmetu vezano uz samostali rad studenata iznosi 90 sati, koje studenti provode kroz programske vježbe i pripreme za provjere znanja. Domaću zadaću za svaki nastavni ciklus čini izvještaj samostalnog rada studenata na programskim vježbama. Ovaj izvještaj obuhvaća i izvještaj s laboratorijskih vježbi. U okviru samostalnog rada student treba proučiti poglavlja iz udžbenika i skripte koja su navedena u tjednom planu nastave, te izvršiti i dokumentirati zadatke za samostalni rad koji su vezani uz pojedina poglavlja.
Metode ocjenjivanja
Provjere znanja vezane uz zajedničke laboratorijske vježbe i domaće zadaće boduju se zajednički na osnovu predanih izvještaja u prvom i drugom ciklusu i nose ukupno 30% bodova. Kontinuirana provjera znanja na predmetu ostvaruje se kroz međuispit (kolokvij) i završni ispit koji zajedno nose 60% bodova na predmetu. Uvjet za ostvarenje prava pristupa usmenom dijelu završnog ispita koji nosi 10% bodova jest da je student na međuispitu i na pisanom dijelu završnog ispita ostvario barem 50% mogućih bodova i da ima pozitivno ocjenjene laboratorijske vježbe i domaće zadaće

Obavezna literatura
  1. Petrinović, D. (2010.), Uvod u digitalnu obradbu govora koristenjem Matlaba, FER, Udžbenici sveučilišta u Zagrebu
  2. Petrinović, D., Digitalna obrada govora, Zavodska skripta, FER, ZESOI, 2010
Dopunska literatura
  1. L.R.Rabiner, R.W.Schafer, Digital Processing of Speech Signals, Prentice-Hall, 1978, ISBN/ISSN 0132136031
  2. Lawrence R. Rabiner, Biing-Hwang Juang, Fundamentals of Speech Recognition, Prentice Hall, 1993, ISBN/ISSN 0130151572
  3. E. Keller, Fundamentals of Speech Synthesis and Speech Recognition, Wiley-Blackwell, 1994, ISBN/ISSN 0471944491

Izborni predmet na studijima
Novi i reformirani studiji
  1. Primijenjena kognitivna znanost, sveučilišni diplomski jednopredmetni studij, 3. semestar