Pomocný software na tvorbu obrazových datových sad v digitální knihovně s využitím strojového učení

Roč.15,č.2(2023)

Abstrakt

Účel – Tento odborný článek popisuje možnosti využití pomocného softwaru za účelem efektivní tvorby obrazových datových sad z dokumentů digitální knihovny. Popisovaný software, kromě běžných způsobů práce s daty, využívá prvky strojového učení, které mají potenciál jak práci anotátorů usnadnit, tak také změnit anotační praktiky. Zároveň je kladen důraz na jednoduchost a otevřenost celého procesu. Cílem je na tyto prvky upozornit pomocí praktických ukázek.

Design / metodologie / přístup – Po úvodní části jsou představeny možnosti výběru a separace dat z dokumentů digitální knihovny. Zároveň je poukázáno na limity těchto přístupů. Na základě těchto poznatků jsou poté zkoumány možné přístupy a využití pomocného softwaru za účelem tyto limity překonat. Metody jsou popisovány na základě praktického využití softwaru při anotačním procesu. Validace prvků strojového učení je provedena mimo jiné vizualizační technikou Class Activation Mapping a pomocí metriky F-score.

Výsledky – Popisované přístupy a využití pomocného softwaru s prvky strojového učení se ukázalo jako velmi přínosné. Software nejen práci anotátorů ulehčuje, ale zároveň značným způsobem urychluje a zpřesňuje. Za velké pozitivum lze považovat univerzálnost testovaného modelu strojového učení, která umožňuje rozšířit anotační procesy za zprvu předpokládané využití, a dává tedy prostor pro další výzkum v této oblasti.

Originalita / hodnota – Odborný článek poukazuje na možné přístupy využití pomocného softwaru, usnadňující tvorbu obrazových datových sad u dokumentů s omezeným množstvím identifikátorů, jako je například digitální knihovna, a to bez potřeby komerčních nástrojů. Dále ukazuje praktické příklady, jak lze pomocí strojového učení tyto procesy zefektivnit. Podstatné jsou také příklady možností univerzálního využití těchto procesů.

Klíčová slova:
datové sady; software; strojové učení; digitální knihovna; anotace
Biografie autora

Filip Jebavý

Moravská zemská knihovna v Brně

Filip Jebavý se zabývá problematikou analytických schopností umělých neuronových sítí. V této oblasti se též podílí na několika výzkumných projektech se zaměřením na humanitní vědy a strojové učení. V současnosti pracuje jako vedoucí Odboru správy digitálních dokumentů v Moravské zemské knihovně v Brně.

Reference

API Specifications—International Image Interoperability FrameworkTM. (b.r.). Získáno 20. červenec 2023, z https://iiif.io/api/

API v7 · ceskaexpedice/kramerius Wiki. (b.r.). Získáno 20. červenec 2023, z https://github.com/ceskaexpedice/kramerius/wiki/API-v7

Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. The MIT Press.

Meier, B., Stadelmann, T., Stampfli, J., Arnold, M., & Cieliebak, M. (2017). Fully Convolutional Neural Networks for Newspaper Article Segmentation. 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), 414–419. https://doi.org/10.1109/ICDAR.2017.75

Northcutt, C. G., Athalye, A., & Mueller, J. (2021). Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks (arXiv:2103.14749). arXiv. http://arxiv.org/abs/2103.14749

Ratner, A., Bach, S. H., Ehrenberg, H., Fries, J., Wu, S., & Ré, C. (2017). Snorkel: Rapid Training Data Creation with Weak Supervision. Proceedings of the VLDB Endowment. International Conference on Very Large Data Bases, 11(3), 269–282. https://doi.org/10.14778/3157794.3157797

Ratner, A., De Sa, C., Wu, S., Selsam, D., & Ré, C. (2017). Data Programming: Creating Large Training Sets, Quickly(arXiv:1605.07723). arXiv. http://arxiv.org/abs/1605.07723

Registr Krameriů. (b.r.). Získáno 19. červenec 2023, z https://registr.digitalniknihovna.cz/

Ying, X. (2019). An Overview of Overfitting and its Solutions. Journal of Physics: Conference Series, 1168(2), 022022. https://doi.org/10.1088/1742-6596/1168/2/022022

Zhang, C., Bengio, S., Hardt, M., Recht, B., & Vinyals, O. (2017). Understanding deep learning requires rethinking generalization (arXiv:1611.03530). arXiv. http://arxiv.org/abs/1611.03530

Metriky

213

Views

47

PDF views