Foto: UB Mannheim

OCR-D: Workflow für werk­spezifisches Training auf Basis generischer Modelle mit OCR-D sowie Ground-Truth-Aufwertung

Kontakt: Stefan Weil
Förderung: Deutsche Forschungs­gemeinschaft (DFG)
Laufzeit: 2021–2023

Im Rahmen des Koordinierungs­projekts OCR-D fördert die DFG seit 2015 verschiedene Projekte zur Entwicklung eines Verfahrens zur Massenvolltextdigitalisierung der im deutschen Sprachraum erschienenen Drucke des 16. bis 19. Jahrhunderts. In der aktuellen dritten Förder­phase arbeitet die Universitäts­bibliothek Mannheim an einem Workflow für das werk­spezifische Nachtraining mit Hilfe von generischen Modellen.

Bei der modernen Volltexterkennung bilden häufig mühsam händisch bzw. halb-automatisiert erfasste Trainingsdaten die Grundlage (Ground Truth) für die Texterkennung mittels künstlicher neuronaler Netze. Dies führt dazu, dass auch die durch die Transkription entstandenen Fehler von den neuronalen Netzen mittrainiert werden. Außerdem basieren die vorhandenen Modelle oftmals auf einzelnen Sprachen oder Schriftarten, die die tatsächlichen Werke nicht komplett abdecken können. Als Resultat entstehen fehlerhafte Modelle mit mangelhafter Genauigkeits­quote.

Mit Hilfe generischer Modelle, die bereits mit unterschiedlichen Sprachen und Schriften trainiert sind, lässt sich diese Problematik umgehen. Durch das Nachtraining (Finetuning) eines generischen Modells kann die Genauigkeit für ein spezifisches Werk auf über 98 Prozent gesteigert werden. Auch spezielle Zeichen und Symbole lassen sich durch ein werk­spezifisches Nachtraining besser erfassen.

Ziel des Projektes ist es, dass Einrichtungen unterschiedlicher Größe möglichst einfach die Module des OCR-D-Workflows nachtrainieren können, sodass bessere Erkennungs­raten für spezifische Werke erreicht werden. Die Anwender sollen dabei durch softwaretechnische Werkzeuge Anleitungen erhalten und durch Best-Practice-Empfehlungen unterstützt werden. Außerdem wird ein zentrales und öffentliches Modellrepositorium erstellt, um die Auffindbarkeit der Modelle zu gewährleisten.