Automatisierte Texterkennung – Datenerhebung via OCR/HTR

Mithilfe von maschineller Texterkennung (OCR) werden Texte aus digitalen Bildern automatisiert erfasst und auf diese Weise durchsuchbare und analysierbare Daten erzeugt. Die Universitätsbibliothek Mannheim blickt auf langjährige Erfahrung in der Digitalisierung und mit der Anwendung verschiedenerTexterkennungssoftware zurück.

Gerne unterstützt das Forschungsdatenzentrum Forschende der Universität Mannheim entlang des gesamten Workflows von der Digitalisierung über die Layout- und Texterkennung sowie dem Nachtraining spezialisierter Modelle bis hin zur Strukturierung der Daten.

Services

Beratung zur maschinellen Texterhebung für Forschungsprojekte
OCR Recommender – Empfehlung für geeignete Texterkennungssoftware
Offene OCR-Sprechstunde: jeden 2. Donnerstag im Monat, von 15 bis 16 Uhr, ohne Anmeldung (Link zum Zoom-Meeting: https://ocr-bw.bib.uni-mannheim.de/sprechstunde, Meeting ID: 682 8185 1819, Kenncode: 443071)
Nutzung von Transkribus über die Organisations-Lizenz der Universität Mannheim mit erweiterten Funktionen inkl. Credit-Vergabe
Texterkennung und Transkription über die eScriptorium-Instanz der Universitätsbibliothek (eigener Account auf Anfrage)

Tool	Kostenmodell	Eigenschaften	Besonders geeignet für
ABBYY Finereader	kostenpflichtig/kommerziell	Text- und Layouterkennung; gute Layoutanalyse	Moderne Drucke, komplexes Layout
eScriptorium	Open Source	Graphische Benutzeroberfläche für Kraken; intuitive Nutzung	Historische Drucke und Handschriften, auch nicht-lateinische Schrift
Google Vision	kostenpflichtig/kommerziell	Texterkennung; Bild- und Videoanalyse; für Handschriften und Drucke	Drucke und Handschriften
Kraken	Open Source	kommandozeilenbasierte Texterkennungssoftware; optimiert für historisches und nicht-lateinisches Schriftmaterial	Historische Drucke und Handschriften, auch nicht-lateinische Schrift
OCR4All	Open Source	graphische Benutzeroberfläche für verschiedene Open Source Texterkennungsprogramme	Historische Drucke und Handschriften
OCRmyPDF	Open Source	Kommandozeilenprogramm zur Texterkennung von PDF-Dateien; nutzt Tesseract als OCR-Engine	Historische/moderne Drucke
OCR-D	Open Source	modular aufgebaute, kommandozeilenbasierte Texterkennungssoftware	Historische Drucke
PERO-OCR	Open Source	webbasierte Texterkennungsplattform; gute Universalmodelle; momentan kein Nachtraining möglich	Historische/moderne Drucke und Handschriften
Tesseract	Open Source	kommandozeilenbasierte Texterkennungssoftware; geeignet für umfangreiche Datensätze	Historische/moderne Drucke
Transkribus	kostenpflichtig/kommerziell	umfangreiche Texterkennungs- und Transkriptionsplattform; mit intuitiver Benutzeroberfläche	Historische Handschriften und Tabellen

User Seat über die Organisations-Lizenz der Universität Mannheim
Die Universitätsbibliothek bietet einen institutionellen Zugang zur Texterkennungs- und Transkriptionsplattform Transkribus an. Für die Vergabe eines User Seats ist die Unterzeichnung unserer Nutzungsbedingungen erforderlich. Anschließend vereinbaren wir ein kurzes Onboarding-Gespräch, in dem wir Sie in die Nutzung des Dienstes einführen.
Das Onboarding umfasst:
Verpflichtend (ca. 30 Minuten):
Überblick über den institutionellen Transkribus-Account
Informationen zu User Seats und Credit-Vergabe
Administrative Rahmenbedingungen und Richtlinien
Optional:
Einführung in grundlegende Funktionen (z. B. Upload, Layout Recognition, HTR-Modelle)
Vertiefungsmodule wie Training eigener Modelle, Arbeiten mit Tabellen oder weiteren Spezialfunktionen
Bearbeitung eigener Beispielsdokumente
Wenn Sie Interesse an einem Zugang haben, kontaktieren Sie uns gerne!
Zugang zur eScriptorium-Instanz der Universitätsbibliothek
Mitglieder der Universität Mannheim können auf Wunsch einen eigenen Account für die eScriptorium-Instanz der Universitätsbibliothek erhalten. Schreiben Sie uns hierzu einfach eine kurze E-Mail – wir richten den Zugang für Sie ein und stellen Ihnen die entsprechenden Nutzungshinweise zur Verfügung.
Nach der Einrichtung unterstützen wir Sie gerne bei den ersten Schritten in eScriptorium, bei Fragen zu Workflows oder bei der Nutzung weiterführender Funktionen.
Anleitungen und Materialien zu verschiedener OCR-Software
Hier finden Sie Anleitungen und Materialien zu verschiedenen Open-Source-Texterkennungsprogrammen und Transkriptionsplattformen. Es handelt sich um eine Sammlung nützlicher Referenzen, nicht alle Ressourcen wurden von der UB Mannheim selbst erstellt.
eScriptorium
Alle Github-Dokumentationen der UB Mannheim zu eScriptorium
Lokale Installation (Windows/Linux)
Lokale Installation (MacOS) (Englisch)
Nutzungsanleitungen (Deutsch und Englisch)
Video: Einführung in eScriptorium
Modellübertragung von Transkribus nach eScriptorium
OCR-D
Nutzungs- und Installationsanleitung
OCRmyPDF
Installations- und Nutzungsanleitung (Windows/Linux)
Tesseract
Alle Github-Dokumentationen der UB Mannheim zu Tesseract
Installations- und Nutzungsanleitung (Linux und Windows)
Anleitung zum Training mit Tesseract und Tesstrain
Hinweise zur Erstellung von Ground-Truth (Trainingsdaten)
Im Rahmen des Projekts OCR-D wurden drei verschiedene Transkriptionsstufen für die Transkription historischer Dokumente in Transkriptionsrichtlinien festgelegt. Die Stufen unterscheiden sich im Grad der originalgetreuen Wiedergabe. Die Richtlinien sind auf der OCR-D Projekthomepage zu finden. Zudem finden Sie auf Github auch eine Leitlinie zur Veröffentlichung Ihrer eigenen Trainingsdaten.
Hier finden Sie Ground-Truth zum Training bzw. Nachtraining eigener Modelle:
OCR & Ground-Truth-Resources
HTR United
Ground-Truth für Charlottenburger Amtsschrifttum
Ground-Truth für Digitalisate der UB Mannheim
Ground-Truth für Digitalisate der UB Tübingen
IAM Database für Handschriften
Hilfreich bei der Erstellung von Ground-Truth kann auch ein virtuelles Keyboard mit den benötigten Sonderzeichen sein. Virtuelle Keyboards für unterschiedliche Transkriptionsplattformen finden Sie ebenfalls auf Github.

In unseren FAQs finden Sie Antworten auf die am häufigst gestellten Fragen rund um das Thema automatisierte Texterkennung sowie die im Projekt OCR-BW genutzte Software.

Wenn die gesuchte Antwort nicht dabei ist, wenden Sie sich einfach per E-Mail an uns.

Projekte und Kooperationen

Kooperationsprojekt zur Texterkennung und Datenstrukturierung mit Lehrstuhl für Wirtschaftsgeschichte (Prof. Streb)
Kooperationsprojekt zur Handschriftenerkennung mit Lehrstuhl für Spätmittelalter und Frühe Neuzeit (Prof. Kümper)

Wenn wir Sie unterstützen können oder Sie Fragen haben, zögern Sie nicht uns zu kontaktieren.

Kontakt

Forschungsdatenzentrum (FDZ)

Team: Irene Schumm, Jan Kamlah, Phil Kolbe, David Morgan, Thomas Schmidt, Renat Kaufmann, Christos Sidiropoulos, Vasilka Paunova, Larissa Will

Universität Mannheim
Universitätsbibliothek Mannheim
Schloss Schneckenhof West
68161 Mannheim

E-Mail: forschungsdatenuni-mannheim.de
Web: fdz.bib.uni-mannheim.de

Automatisierte Texterkennung – Datenerhebung via OCR/HTR

Services

Auswahl an Texterkennungs- und Transkriptionsplattformen

User Seat über die Organisations-Lizenz der Universität Mannheim

Zugang zur eScriptorium-Instanz der Universitätsbibliothek

Anleitungen und Materialien zu verschiedener OCR-Software

eScriptorium

OCR-D

OCRmyPDF

Tesseract

Hinweise zur Erstellung von Ground-Truth (Trainingsdaten)

Projekte und Kooperationen

Kontakt

Forschungsdatenzentrum (FDZ)

InfoCenter

FORUM

Services

Auswahl an Texterkennungs- und Trans­kriptions­plattformen

User Seat über die Organisations-Lizenz der Universität Mannheim

Zugang zur eScriptorium-Instanz der Universitäts­bibliothek

Anleitungen und Materialien zu verschiedener OCR-Software

Hinweise zur Erstellung von Ground-Truth (Trainingsdaten)

Projekte und Kooperationen

Kontakt

Forschungs­datenzentrum (FDZ)

Auswahl an Texterkennungs- und Transkriptionsplattformen

Zugang zur eScriptorium-Instanz der Universitätsbibliothek

Forschungsdatenzentrum (FDZ)