Naziv
Obrada prirodnog jezika
Organizacijska jedinica
Odsjek za informacijske i komunikacijske znanosti
ECTS
60
Šifra
225474
Semestri
ljetni
Satnica
Predavanja
30
Seminar
30

Cilj
Studenti će dobiti znanja iz područja obrade prirodnog jezika, s posebnim naglaskom na razvoj korpusa i analizu sentimenta.
Sadržaj
  1. Uvodno predavanje
  2. Uvod u obradu prirodnog jezika.
  3. Jezični resursi i alati za hrvatski i ostale jezike.
  4. Metode i alati za razvoj korpusa.
  5. Standardi i alati za označavanje korpusa.
  6. Razvoj korpusa za analizu sentimenta: prikupljanje jezičnih resurs.
  7. Razvoj korpusa za analizu sentimenta: čišćenje jezičnih resursa i tokenizacija.
  8. Razvoj korpusa za analizu sentimenta: označavanje korpusa na razini pojavnica i sintagmi (morfosintaktičke oznake, lematizacija, označavanje imenovanih entiteta).
  9. Kolokvij
  10. Analiza sentimenta uporabom leksikona
  11. Analiza sentimenta temeljena na pravilima
  12. Analiza sentimenta uz pomoć strojnog i dubinskog učenja
  13. Prekojezična analiza sentimenta pomoću strojnog prevođenja i leksikona
  14. Prekojezična analiza sentimenta pomoću vektorskih prikaza riječi i jezičnih modela.
  15. ZAVRŠNI ISPIT: Predstavljanje projektnog zadatka.

Ishodi učenja
  1. Identificirati računalnu složenost problema OPJ-a
  2. Analizirati tekstovne korpuse
  3. Primijeniti tehnologiju OPJ-a u svrhu istraživanja i boljeg razumijevanja tekstnih podataka
  4. Primijeniti metode OPJ-a za analizu sentimenta tekstnih dokumenata
  5. Interpretirati rezultate projekta iz područja OPJ-a
  6. Dekonstruirati stvarne probleme u manje složene probleme u području OPJ-a te osmisliti moguća rješenja
Metode podučavanja
Predavanja, rad na računalima, sustav učenja na daljinu.
Metode ocjenjivanja
Kolokvij. Seminarski rad. Usmeni ispit.

Obavezna literatura
  1. Daniel Jurafsky & James. H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Prentice Hall, NJ, 2000.
  2. Christopher D. Manning, Hinrich Schütze (1999.), Foundations of Statistical Natural Language Processing, MIT Press
  3. Sarkar, Dipanjan. Text analytics with Python: a practitioner's guide to natural language processing. Apress, 2019.
  4. Pota, M.; Ventura, M.; Catelli,R.; Esposito, M. An EffectiveBERT-Based Pipeline for TwitterSentiment Analysis: A Case Study inItalian. Sensors 2021, 21, 133.
  5. Pang, B.; Lee, L.; Vaithyanathan, S. Thumbs up? Sentiment Classification using Machine Learning Techniques. In Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing, EMNLP 2002, Philadelphia, PA, USA, 6–7 July 2002;pp. 79–86
  6. Yadav, A.; Vishwakarma, D.K. Sentiment analysis using deep learning architectures: A review. Artif. Intell. Rev. 2020,53, 4335–4385.
Dopunska literatura
  1. Ruslan Mitkov (ed.) (2005.), The Oxford Handbook of Computational Linguistics, Oxford University Press, USA
  2. Hao, Y.; Mu, T.; Hong, R.; Wang, M.; Liu, X.; Goulermas, J.Y. Cross-Domain Sentiment Encoding through Stochastic WordEmbedding. IEEE Trans. Knowl. Data Eng. 2020, 32, 1909–1922.
  3. Zhang, L.; Wang, S.; Liu, B. Deep learning for sentiment analysis: A survey. Wiley Interdiscip. Rev. Data Min. Knowl. Discov. 2018,8.
  4. Li, Y.; Pan, Q.; Yang, T.; Wang, S.; Tang, J.; Cambria, E. Learning Word Representations for Sentiment Analysis. Cogn. Comput.2017, 9, 843–851.
  5. Marko Tadić. Jezične tehnologije i hrvatski jezik. Exlibris, Zagreb 2003.
  6. Tepeš, B. Računarska lingvistika, Radovi Zavoda za informacijske studije, Knjiga 9., Zagreb, 2001.

Obavezan predmet na studijima
  1. Informacijske znanosti, sveučilišni diplomski jednopredmetni studij
  2. Informacijske znanosti, sveučilišni diplomski dvopredmetni studij