Naziv
Digitalizacija tekstualnoga gradiva
Organizacijska jedinica
Združeni diplomski studij Digitalna lingvistika
ECTS
3
Šifra
255253
Semestri
zimski
Satnica
Predavanja
15
Vježbe u praktikumu
15

Cilj
Osnovni cilj predavanja je stjecanje znanja o temeljnim principima procesa digitalizacije tekstualnoga gradiva – priprema gradiva, digitalizacija, obrada, priprema za optičko prepoznavanje znakova i njegova provedba, zaštita, pohrana, korištenje. Također se stječu specifična znanja vezana uz optimizaciju projekata digitalizacije – testiranje i analiza uspješnosti OCR-a.
Sadržaj
  1. Predmet uvodi studente u proces digitalizacije različitih nestrukturiranih i strukturiranih tekstualnih materijala i izvora s ciljem ekstrakcije teksta, njegove analize i vizualizacije podataka koji iz njega proističu. Razrađuju se osnovni koraci procesa digitalizacije – odabir materijala za digitalizaciju, odabir potrebne računalne i programske podrške, digitalizacija, obrada nakon digitalizacije (npr. binarizacija, optičko prepoznavanje znakova (OCR), optičko prepoznavanje rukopisa (HCR), prepoznavanje teksta utemeljeno na umjetnoj inteligenciji itd.) uzimajući u obzir vrstu gradiva koje se digitalizira. Analiziraju se situacije u kojima računalno prepoznavanje teksta ne daje dovoljno dobre rezultate i moguća rješenja (npr. tehnologije digitalne participacije – upotreba mnoštva, igrifikacija i sl.).

Ishodi učenja
  1. Planirati proces digitalizacije prilagođen tipu gradiva.
  2. Primijeniti znanje o računalnom prepoznavanju teksta prilikom odabira gradiva za digitalizaciju s ciljem identifikacije onih materijala koji su pogodni za digitalizaciju i ekstrakciju teksta.
  3. Odabrati optimalne postavke za različite materijale i primijeniti ih u procesu digitalizacije.
  4. Identificirati primjerene metode pripreme gradiva za OCR i optimalno ih primijeniti s ciljem efikasne ekstrakcije teksta.
  5. Identificirati i procijeniti alternativne pristupe ekstrakciji teksta u situacijama kada tradicionalni programi za računalno prepoznavanje ne daju dovoljno dobre rezultate.
Metode podučavanja
predavanja, vježbe, mješovito e-učenje, samostalni zadaci, multimedija i mreža, laboratorij
Metode ocjenjivanja
Pohađanje nastave, Kolokvij, Praktični rad, Pismeni ispit, Usmeni ispit

Obavezna literatura
  1. Anderson, N., Muhlberger, G., Antonacopoulos, A., Optical Character Recognition: IMPACT Best Practice Guide. 2010., https://www.digitisation.eu/download/website-files/BPG/OpticalCharacterRecognition-IBPG_01.pdf
  2. Handbook for Digital Projects: A Management Tool for Preservation and Access, u: Sitts, Maxine K. (ur.), Northeast in the library Document Conversion Center, Andover, Massachusetts, 2000., (Chapters II, IV, VI, VII, IX), https://www.nedcc.org/assets/media/documents/dman.pdf
  3. Frey, Franziska S., Reilly, James M., Digital Imaging for Photographic Collections, Image Permanence Institute, Rochester Institute of Technology, New York, 2006., https://www.imagepermanenceinstitute.org/webfm_send/650
  4. Thoma, G. R., Mao, S., Misra, D., Rees, J., Design of a Digital Library for Early 20th Century Medico-legal Documents in Research and Advanced Technology for Digital Libraries: 10th European conference, ECDL 2006. Berlin-Heidelberg: Springer- Verlag, str. 147–157, https://lhncbc.nlm.nih.gov/system/files/pub2006028.pdf
  5. Alex, B.; Grover, C.; Klein, E.; Tobin, R. (2012) Digitised Historical Text: Does it have to be mediOCRe. U: Jancsary, J., ur. Empirical Methods in Natural Language Processing: Proc. of the Conference on Natural Language Processing 2012. Beč: ÖGAI, str. 401-409, https://www.researchgate.net/publication/257933037_Digitised_Historical_Text_Does_it_have_to_be_mediOCRe
  6. Causer, T.; Grint, K.; Schiani, A.; Terras, M. (2018) 'Making such bargain': Transcribe Bentham and the quality and cost- effectiveness of crowdsourced transcription. Digital Scholarship in the Humanities, 33 (3), str. 467-487, https://www.researchgate.net/publication/322175650_'Making_such_bargain'_Transcribe_Bentham_and_the_quality_and_cost- effectiveness_of_crowdsourced_transcription
  7. Stančić, Hrvoje, Digitalizacija, Zavod za informacijske studije, 2009., 171 str.
  8. Traub M. C.; Van Ossenbruggen J.; Hardman L., Impact Analysis of OCR Quality on Research Tasks in Digital Archives. u: Kapidakis S.; Mazurek C.; Werla M. (ur.), Research and Advanced Technology for Digital Libraries, 19th International Conference on Theory and Practice of Digital Libraries, TPDL. Berlin-Heidelberg: Springer-Verlag, 2015., str. 252-263, https://doi.org/10.1007/978-3-319-24592-8_19
Dopunska literatura
  1. Han, Y., Wan, X., Digitization of Text Documents Using PDF/A, Information Technology and Libraries, Vol. 37(1), 2018., str. 52-64

Izborni predmet na studijima
Stari studiji
  1. Komparativna književnost, sveučilišni diplomski jednopredmetni studij, 1., 3. semestar
  2. Psihologija, sveučilišni diplomski jednopredmetni studij, 1., 3. semestar
  3. Informacijske znanosti, sveučilišni diplomski jednopredmetni studij
  4. Talijanistika, sveučilišni diplomski jednopredmetni studij
  5. Anglistika, sveučilišni diplomski jednopredmetni studij
  6. Anglistika, sveučilišni diplomski jednopredmetni studij
  7. Povijest, sveučilišni diplomski jednopredmetni studij
  8. smjer Nastavnički, sveučilišni diplomski jednopredmetni studij, 1., 3. semestar
  9. Arheologija, sveučilišni diplomski jednopredmetni studij
  10. Sociologija, sveučilišni diplomski jednopredmetni studij
  11. Filozofija, sveučilišni diplomski jednopredmetni studij
  12. Indologija, sveučilišni diplomski dvopredmetni studij, 1. semestar
  13. Judaistika, sveučilišni diplomski dvopredmetni studij, 1., 3. semestar
  14. Komparativna književnost, sveučilišni diplomski dvopredmetni studij, 1., 3. semestar
  15. Nederlandistika, sveučilišni diplomski dvopredmetni studij, 1., 3. semestar
  16. Portugalski jezik i književnost, sveučilišni diplomski dvopredmetni studij, 1., 3. semestar
  17. Romistika, sveučilišni diplomski dvopredmetni studij, 1., 3. semestar
  18. Informacijske znanosti, sveučilišni diplomski dvopredmetni studij
  19. Južnoslavenski jezici i književnosti, sveučilišni diplomski dvopredmetni studij
  20. Talijanistika, sveučilišni diplomski dvopredmetni studij
  21. Lingvistika, sveučilišni diplomski dvopredmetni studij
  22. Germanistika, sveučilišni diplomski dvopredmetni studij
  23. Poljski jezik i književnost, sveučilišni diplomski dvopredmetni studij
  24. Anglistika, sveučilišni diplomski dvopredmetni studij
  25. Češki jezik i književnost, sveučilišni diplomski dvopredmetni studij
  26. Filozofija, sveučilišni diplomski dvopredmetni studij
  27. Rumunjski jezik i književnost, sveučilišni diplomski dvopredmetni studij
  28. Sociologija, sveučilišni diplomski dvopredmetni studij
Novi i reformirani studiji
  1. Digitalna lingvistika, sveučilišni diplomski jednopredmetni studij, 1., 3. semestar
  2. Romistika, sveučilišni diplomski jednopredmetni studij, 1. semestar
Fakultetska ponuda
  • Diplomski studij: Zimski semestar