Aktienführer-Datenarchiv II

Kontakt: Dr. Irene Schumm und Dr. Philipp Zumstein
Förderung: Deutsche Forschungs­gemeinschaft (DFG)
Laufzeit: 2017–2019
Zum Projekt: Aktienführer-Datenarchiv

Der Aktienführer aus dem Hoppenstedt-Verlag sowie seine Vorgängerpublikation, Saling‘s Börsenpapiere, bieten in standardisierter Form Informationen zu den an deutschen Börsen notierten Unternehmen. So sind beispielsweise Daten zu Vorständen, Aufsichtsräten, Besitzstruktur und Bilanzen enthalten. Aufgrund der verhältnismäßig langen und regelmäßigen Publikations­historie seit 1870 sowie der konstant hohen Datenqualität ist der Aktienführer eine viel genutzte und außergewöhnliche Datenquelle für die auf Deutschland bezogene wirtschafts­wissenschaft­liche Forschung. 

Die Aktienführer-Bände und -CDs sowie die Bände der Vorgängerreihen Saling's Börsenpapiere liegen momentan in mehreren Bibliotheken deutschland­weit verteilt vor. Jegliche Auswertung von historischen Daten ist daher momentan sehr mühsam und meist nur vor Ort in den verschiedenen Bibliotheken mittels manueller Extraktion und Zusammenführung der Daten möglich. Als übergeordnetes Ziel sollen alle Bände daher vollständig digital zusammengeführt werden. Nach erfolgreicher Beendigung des Fortsetzungs­projekts könnten Wissenschaft­ler erstmals in den gesamten Unternehmens­profilen der letzten 140 Jahren (1870–2016) komfortabel online navigieren und im Volltext recherchieren, sie beliebig auswerten und neue Er­kenntnisse gewinnen. Zusätzlich wird die feinstrukturierte Datenbank auf die letzten 60 Jahre (19562016) erweitert, die es Wissenschaft­lern ermöglicht, exakte Recherchen und umfangreiche Paneldaten-Exporte durchzuführen.

In der ersten Projekt­phase wurden die gedruckten Aktienführer-Bände der Jahre 1976–1999 gescannt, die Inhaltsverzeichnisse erschlossen, die Daten strukturiert vollständig erfasst und eine Datenbank mit Filter- und Export­möglichkeiten aufgebaut.

Im Fortsetzungs­projekt sollen nun zum einen alle noch nicht gescannten Print-Bände der Aktienführer bzw. Saling’s Börsenpapiere (1870-1942) digitalisiert, die Inhaltsverzeichnisse erschlossen und mittels automatischer Texterkennung (OCR) im Volltext erfasst werden. Zwischen 1945 und 1955 ist nur ein Band im Jahr 1953 erschienen und dieser enthält nur sehr kurze auf Schreibmaschine getippte Unternehmens­profile. Für eine automatisierte Datenextraktion in der feingliedrigen Struktur und einen Import in die bestehende Datenbank sind Bände von vor 1956 aufgrund ihres andersartigen, weniger strukturierten Layouts sowie inhaltlicher Differenzen nicht geeignet. Daher soll lediglich eine OCR des Fließtextes erfolgen, da diese bereits den großen Mehrwert einer Volltextsuche bietet sowie die Möglichkeit, Textpassagen kopieren zu können.

Aus den bereits gescannten Print-Bänden 1956–1975 werden, analog zum Projekt „Aktienführer-Datenarchiv I”, zusätzlich die Daten strukturiert vollständig erfasst. Als Weiter­entwicklung wird jedoch eine weitestgehende Automatisierung der einzelnen Schritte bzw. Vorgehensweisen angestrebt. Als Grundlage dient dabei die Ausgabe einer OCR-Software. Ziel ist es, deren Erkennungs­genauigkeit im Projektverlauf zu verbessern, insbesondere im Hinblick auf Zahlen. Des Weiteren sollen im Rahmen des Projekts Tools für eine automatische Strukturierung und Feineinteilung der wichtigen Informationen entwickelt werden. Die Resultate sowie auch die zu entwickelnden Software-Tools werden dokumentiert und nachhaltig als Open Source angeboten.

Schließlich soll die Datenbank um die feingegliederten Daten der Jahrgänge 2000–2016 erweitert werden, die auf CD-ROM vorliegen.