Optimierter Einsatz von OCR-Verfahren

Tesseract als Komponente im OCR-D-Workflow

Kontakt: Stefan Weil
Förderung: Deutsche Forschungs­gemeinschaft (DFG)
Laufzeit: 2018–2019

Als eines von acht Modul­projekten im OCR-D Koordinierungs­projekt zur Weiter­entwicklung von Verfahren der Optical Character Recognition (OCR) arbeitet die Universitäts­bibliothek an einer zentralen Komponente – der eigentlichen Texterkennung – und betreut dabei die Software Tesseract.

Tesseract ist eine freie Software für die Texterkennung (optische Zeichenerkennung, OCR). Diese Software zeichnet sich durch eine mehr als 30-jährige stetige Weiter­entwicklung aus. In der Gruppe Open Source Software gehört Tesseract zu den Programmen mit den besten Erkennungs­raten. Seit Ende 2016 unterstützt Tesseract auch die Texterkennung mittels künstlicher neuronaler Netze (LSTM) und ist damit technologisch aktuell. Das Projekt erweitert bzw. ergänzt Tesseract um Schnittstellen für die Einbindung in einen OCR Gesamt-Workflow gemäß der OCR-D Modulbeschreibung (Kommandozeile, API, REST-basierter Webservice). Darüber hinaus ist das Ziel, die Stabilität, Performance und praktische Einsetzbarkeit weiter zu verbessern.

Die Universitäts­bibliothek Mannheim hat mit Tesseract die erste weitgehend komplette Texterkennung für die historische Zeitung Deutscher Reichsanzeiger und Preußischer Staats­anzeiger und deren Vorgängerzeitungen (1819–1945) durchgeführt und verwendet Tesseract auch im DFG-Projekt Aktienführer-Datenarchiv II.