Naziv
Digitalizacija tekstualnoga gradiva
Organizacijska jedinica
Združeni diplomski studij Digitalna lingvistika
ECTS
3
Šifra
255253
Semestri
zimski
Satnica
Predavanja
15
Vježbe u praktikumu
15

Cilj
Osnovni cilj predavanja je stjecanje znanja o temeljnim principima procesa digitalizacije tekstualnoga gradiva – priprema gradiva, digitalizacija, obrada, priprema za optičko prepoznavanje znakova i njegova provedba, zaštita, pohrana, korištenje. Također se stječu specifična znanja vezana uz optimizaciju projekata digitalizacije – testiranje i analiza uspješnosti OCR-a.
Sadržaj
  1. Predmet uvodi studente u proces digitalizacije različitih nestrukturiranih i strukturiranih tekstualnih materijala i izvora s ciljem ekstrakcije teksta, njegove analize i vizualizacije podataka koji iz njega proističu. Razrađuju se osnovni koraci procesa digitalizacije – odabir materijala za digitalizaciju, odabir potrebne računalne i programske podrške, digitalizacija, obrada nakon digitalizacije (npr. binarizacija, optičko prepoznavanje znakova (OCR), optičko prepoznavanje rukopisa (HCR), prepoznavanje teksta utemeljeno na umjetnoj inteligenciji itd.) uzimajući u obzir vrstu gradiva koje se digitalizira. Analiziraju se situacije u kojima računalno prepoznavanje teksta ne daje dovoljno dobre rezultate i moguća rješenja (npr. tehnologije digitalne participacije – upotreba mnoštva, igrifikacija i sl.).

Ishodi učenja
  1. Planirati proces digitalizacije prilagođen tipu gradiva.
  2. Primijeniti znanje o računalnom prepoznavanju teksta prilikom odabira gradiva za digitalizaciju s ciljem identifikacije onih materijala koji su pogodni za digitalizaciju i ekstrakciju teksta.
  3. Odabrati optimalne postavke za različite materijale i primijeniti ih u procesu digitalizacije.
  4. Identificirati primjerene metode pripreme gradiva za OCR i optimalno ih primijeniti s ciljem efikasne ekstrakcije teksta.
  5. Identificirati i procijeniti alternativne pristupe ekstrakciji teksta u situacijama kada tradicionalni programi za računalno prepoznavanje ne daju dovoljno dobre rezultate.
Metode podučavanja
predavanja, vježbe, mješovito e-učenje, samostalni zadaci, multimedija i mreža, laboratorij
Metode ocjenjivanja
Pohađanje nastave, Kolokvij, Praktični rad, Pismeni ispit, Usmeni ispit

Obavezna literatura
  1. Anderson, N., Muhlberger, G., Antonacopoulos, A., Optical Character Recognition: IMPACT Best Practice Guide. 2010., https://www.digitisation.eu/download/website-files/BPG/OpticalCharacterRecognition-IBPG_01.pdf
  2. Handbook for Digital Projects: A Management Tool for Preservation and Access, u: Sitts, Maxine K. (ur.), Northeast in the library Document Conversion Center, Andover, Massachusetts, 2000., (Chapters II, IV, VI, VII, IX), https://www.nedcc.org/assets/media/documents/dman.pdf
  3. Frey, Franziska S., Reilly, James M., Digital Imaging for Photographic Collections, Image Permanence Institute, Rochester Institute of Technology, New York, 2006., https://www.imagepermanenceinstitute.org/webfm_send/650
  4. Thoma, G. R., Mao, S., Misra, D., Rees, J., Design of a Digital Library for Early 20th Century Medico-legal Documents in Research and Advanced Technology for Digital Libraries: 10th European conference, ECDL 2006. Berlin-Heidelberg: Springer- Verlag, str. 147–157, https://lhncbc.nlm.nih.gov/system/files/pub2006028.pdf
  5. Alex, B.; Grover, C.; Klein, E.; Tobin, R. (2012) Digitised Historical Text: Does it have to be mediOCRe. U: Jancsary, J., ur. Empirical Methods in Natural Language Processing: Proc. of the Conference on Natural Language Processing 2012. Beč: ÖGAI, str. 401-409, https://www.researchgate.net/publication/257933037_Digitised_Historical_Text_Does_it_have_to_be_mediOCRe
  6. Causer, T.; Grint, K.; Schiani, A.; Terras, M. (2018) 'Making such bargain': Transcribe Bentham and the quality and cost- effectiveness of crowdsourced transcription. Digital Scholarship in the Humanities, 33 (3), str. 467-487, https://www.researchgate.net/publication/322175650_'Making_such_bargain'_Transcribe_Bentham_and_the_quality_and_cost- effectiveness_of_crowdsourced_transcription
  7. Stančić, Hrvoje, Digitalizacija, Zavod za informacijske studije, 2009., 171 str.
  8. Traub M. C.; Van Ossenbruggen J.; Hardman L., Impact Analysis of OCR Quality on Research Tasks in Digital Archives. u: Kapidakis S.; Mazurek C.; Werla M. (ur.), Research and Advanced Technology for Digital Libraries, 19th International Conference on Theory and Practice of Digital Libraries, TPDL. Berlin-Heidelberg: Springer-Verlag, 2015., str. 252-263, https://doi.org/10.1007/978-3-319-24592-8_19
Dopunska literatura
  1. Han, Y., Wan, X., Digitization of Text Documents Using PDF/A, Information Technology and Libraries, Vol. 37(1), 2018., str. 52-64

Izborni predmet na studijima
  1. Digitalna lingvistika, sveučilišni diplomski jednopredmetni studij, 1. semestar