„Digitalisierung ist der neue König Midas“ (Stefan Münker)

Die Tagung .hist2011 zur Geschichte im digitalen Wandel (14./15.09.2011, Berlin)

Am 14. und 15. September 2011 fand an der Humboldt-Universität zu Berlin die inzwischen dritte .hist-Tagung statt. Veranstalter waren der Verein Clio-online – Historisches Fachinformationssystem e.V. , die vom Verein mit betriebene Plattform H-Soz-u-Kult und L.I.S.A. , das Wissenschaftsportal der Gerda Henkel Stiftung.

Der Tagungseinladung folgten ca. 170 Teilnehmer/innen und Referent/innen aus Deutschland, Österreich und der Schweiz in den Senatssaal der HU Berlin. Podium und Auditorium setzten sich hauptsächlich aus geisteswissenschaftlich arbeitenden Mitarbeiter/innen von universitären und außeruniversitären Forschungseinrichtungen, wissenschaftlichen Bibliotheken und vereinzelt Dienstleistern zusammen.

Die Tagung teilte sich in Sektionen, die als Diskussionsforen zum weiten Thema „Geschichte im digitalen Wandel“ angelegt waren, und in Werkstattberichte, die Einblicke in Problemstellungen und Lösungsansätze aus konkreten Projekten boten. Die meisten Abstracts wurden lobenswerter Weise bereits im Vorfeld veröffentlicht.

Die Werkstattberichte fanden mit dem Thema der Vernetzung von Wissen, Forschern und Geschichtswissenschaft recht großen Zulauf.

Die Frage der Vernetzung von Wissen (Werkstattbericht I), de facto von Daten, wurde meist sehr techniklastig erörtert. Die Referenten stellten verschiedene Lösungsansätze zur Auszeichnung und Strukturierung der Daten vor: So entwickelte die Berlin-Brandenburgische Akademie der Wissenschaften für die Strukturierung heterogener Personendaten aus unterschiedlichen Beständen ein eigenes XML-basiertes Datenmodel. Die Auszeichnung der Personendaten erfolgt automatisch oder halbautomatisch mit dem Ziel, eine vielfältige Datenabfrage für breit gefächerte/offene Fragestellungen zu ermöglichen.

Die Historische Kommission bei der Bayerischen Akademie der Wissenschaften setzt bei der Digitalisierung und digitalen Präsentation der Allgemeinen Deutschen Bibliographie und der Neuen Deutschen Bibliographie auf eine an TEI angelehnte Auszeichnung mit automatisierter Strukturierung durch ein Mapping zum Register und Dublettenabgleich sowie einem automatisierten Abgleich mit der Personennormdatei.

Für den Professorenkatalog der Universität Leipzig, für das Portal Docupedia-Zeitgeschichte und für das Deutsche Institut für internationale Pädagogische Forschung werden über verschiedene Wiki-Anwendungen (OntoWiki , SemanticMediaWiki und Semantic MediaWiki for Collaborative Corpora Analysis ) Lösungen für die Vernetzung von Daten erarbeitet. Allen drei Projekten liegt eine Datenauszeichnung nach RDF zugrunde. Im Gegensatz zu den Akademien stehen nicht aus Quellen und Retrodigitalisierung gewonnene Texte zur Strukturierung bereit, sondern die jeweiligen Anwendungen sollen gleichzeitig als kollaborative Forschungsumgebung zum Entwurf, Entwickeln und Diskutieren von wissenschaftlichen Texten und damit zur Vernetzung von Wissen dienen.

Der zweite Werkstattbericht behandelte die Entwicklung von und Anforderungen an virtuelle Forschungsumgebungen. Dieses Thema umfasste eine große Bandbreite von Datenformaten und -auszeichnung, über anwendungsbasierte Software zur Strukturierung und Erschließung von Texten bis zur Vernetzung des einzelnen Forschenden. Hierbei ließ die Forderung nach und Vorstellung von einfachen, nutzerorientierten und intuitiven Anwendungen für Geisteswissenschaftler/innen das Publikum aufhorchen. Es kommt demnach keine „virtuelle“ Forschungsumgebung ohne entsprechende konkrete Software-Vorschläge aus. Es gibt also offenbar nicht nur einen Bedarf an Plattformen zur (geschützten) Vernetzung von Personen und Projekten, um Daten, Wissen und Ideen zu entwickeln, sondern auch einen ebenso großen Bedarf an Arbeitswerkzeugen. Vor allem an diesem Punkt setzten die Nachfragen der Zuhörer ein. Die Frage nach Tools zur Analyse, als wesentlichem Teil der wissenschaftlichen Arbeit, konnte mit Blick auf die nur wenig standardisierten Analysemethoden und -verfahren in der Geschichtswissenschaft nur für zukünftige Überlegungen aufbewahrt werden.

Eine derartige Bedarfsanalyse mit gleichzeitiger Evaluierung bisheriger Standards wurde im vierten und letzten Werkstattbericht zu Informationsinfrastrukturen für die Wissenschaft im Rahmen der Vorstellung des Projekts DARIAH-DE , hier vertreten durch das Institut für Europäische Geschichte in Mainz, angestrebt. Im Fokus von DARIAH-DE stehen ausdrücklich Forschende im Bereich Digital Humanities (DH), die zum einen nach den Anforderungen befragt, zum anderen aber auch für die an sie gestellten Anforderungen gezielt ausgebildet werden sollen. Daneben stellte das Fachinformationszentrum Karlsruhe den Entwicklungsstand der Digitalen Bibliothek vor, in dem unter anderem die Strukturierung der Daten nach CIDOC CRM Erwähnung fand. Vorgestellt wurden weiterhin das Projekt TextGrid, wobei die Ausführungen angesichts der Zeit nur knapp ausfallen konnten, und das Projekt Europeana Collection 1914–1918, vertreten durch die Staatsbibliothek zu Berlin. Beide Berichte verließen den Werkstattcharakter, da die Projekte bereits umgesetzt und in den letzten Wochen gelauncht wurden. Für TextGrid bleibt abzuwarten, inwieweit sich Wissenschaftler als Nutzer bereit finden, damit zu arbeiten. Das Projekt Europeana Collection 1914–1918 zielt dagegen auch ausdrücklich auf nicht-wissenschaftliches Publikum als Beiträger zur Vervollständigung der digitalen Sammlung zum Thema Erster Weltkrieg.

Die sehr gute Organisation der Tagung trug zu einer guten Stimmung unter den Teilnehmern bei, was sich in den zum Teil lebhaften Diskussionen im Anschluss an die Vorträge und in den Pausen zeigte. Doch nicht nur Mareike König fiel die ungleiche Zahl zwischen Männern und Frauen auf dem Podium auf, die sich im Publikum durchaus nicht widerspiegelte. Ebenfalls auffällig war die Abwesenheit der Archive und, bis auf eine Ausnahme, der Museen als Teilnehmer vor und auf dem Podium. Arbeiten dort keine historisch forschenden Wissenschaftler/innen oder beobachten sie den digitalen Wandel nur von außen?

Fachtagungen sind für uns als Dienstleister wichtig, um den aktuellen Diskussions- und Arbeitsstand auszutauschen, gegenwärtige Probleme und Fragestellungen und zukünftige Anforderungen abzulesen. Unabhängig davon können alte Kontakte wieder aufgefrischt und neue Kontakte genüpft werden, weswegen die Tagung auch in positiver Erinnerung bleiben wird.

Der neue Abbyy FineReader 11 – schneller und weiterhin (nur) bestens

Abbyy veröffentlichte Anfang September 2011 seine Texterkennungssoftware FineReader in einer neuen Version 11. Wir haben die neue Version getestet, die Resultate hinsichtlich Text- und Layout-Genauigkeit sowie Geschwindigkeit der Verarbeitung mit der Vorgängerversion verglichen.

Das Ergebnis lässt sich leicht zusammenfassen: Die neue Version ist ein Performance-Update! Die Qualität der Text- und Layouterkennung hat sich (so gut wie) gar nicht verändert – die Ergebnisse waren im Vergleich zu FineReader 10 auf gleichbleibend hohem Niveau korrekt. Eine Verbesserung ist nur an ganz wenigen Stellen festzustellen.

Wie ist diese Release-Politik zu verstehen? Die Fehlerfreiheit der Texterkennung befindet sich seit mindestens FineReader 10 auf höchstem Niveau. Sie liegt bei weit über 99,8 Prozent. Ein Text für gängige Schriftarten ist meist fehlerfrei, wobei falsch erkannte Buchstaben entweder auf fehlerhafte Vorlagen oder 50:50-Entscheidungen zurückzuführen sind. Ebenso ist die Layout-Erkennung so weit fortgeschritten, dass es dem Augenschein nach so gut wie nichts zu verbessern gibt. Problemstellen sind meist auch für Menschen Problemstellen.

Dass sich Abbyy vor allem auf eine Steigerung der Performance konzentriert, ist vermutlich als Vorbereitung auf den nächsten Versionsschritt zu erklären: für FineReader 11 wurde viel Programmcode aufgeräumt und auf parallele Verarbeitung hin optimiert. Diese Performance-Steigerung schafft Platz für weitere Erkennungsalgorithmen, z. B. für neue Schriften oder Layouttypen, die allerdings erst in der nächsten Version zu erwarten sind. Mit der neuen Version leistet Abbyy also zunächst einmal Produktpflege hinter den Kulissen. Ein Kauf oder Update lohnt sich unseres Erachtens vor allem für Projekte, in denen sehr große Seitenmengen verarbeitet werden müssen.

Die Hintergründe und einige Details zum Test können Sie im Folgenden nachlesen.

Das Testdokument

Das Testdokument besteht aus vier unterschiedlich komplexen Vorlagen:

  • Acht Seiten aus einem wissenschaftlichen Medizin-Journal in englischer Sprache. Dieses Dokument enthielt ein relativ einfaches Zweispalten-Layout aber mit Fußnoten, Tabellen, Bildern, Grafiken. – Images: Graustufen, 600 dpi.
  • Acht Seiten aus einem Roman in deutscher Sprache. Das Layout war sehr einfach: Textblöcke und Seitenzahlen. – Images: 300 dpi, Graustufen.
  • Acht Seiten aus einem Index einer Urkundenedititon in deutscher Sprache. – Images: Farbe, 400 dpi.
  • Vier Seiten einer tschechischen Zeitung: Das Layout ist durch Spalten, mehrspaltige Überschriften, Fotografien und Bildbeischriften sehr komplex. Eine Seite weist sehr viel Text und für das Tschechische typisch viele diakritische Zeichen auf. – Images: Farbe, 400 dpi.

Alle Eingabebilder zeigten die Vorlage – mit Ausnahme der Zeitung – doppelseitig.

Was musste FineReader 11 leisten?

  • Deskewing: Die Vorlagen waren zwar bereits akkurat gerade gescannt, dennoch leistet FineReader eine weitere Korrektur nach eigenem Ermessen (meist nur minimal im niedrigen einstelligen Gradbereich).
  • Seitentrennung: Die Doppelseiten mussten getrennt werden – dies findet bei uns normalerweise mit der Schwarzrand-Entfernung statt.
  • Layouterkennung: Das Layout musste analysiert werden – von einfach (Roman) bis komplex (Zeitung).
  • Zeichenerkennung: Die Zeichen mussten korrekt erkannt werden:
    • in einem deutschem Prosatext,
    • in einem tschechischen Zeitungstext mit vielen sprachenspezifischen kombinierten Zeichen,
    • in einem englischen medizinischen Fachtext samt zahlreicher Abkürzungen,
    • in einem Index aus Zahlen und unbekannten Namen.

In den ersten beiden Fällen wird die Erkennung durch ein Wörterbuch unterstützt; in den letzten beiden Fällen kann FineReader sich nur auf die reine Zeichenerkennung verlassen.

Die Abbyy-Einstellungen

FineReader 11 lief mit den Standard-Einstellungen: Durch die aktivierte Bildvorverarbeitung wurden evtl. Bilder leicht gedreht. Die aktivierte Seitenausrichtung war eigentlich unnötig. Gegenüberliegende Seiten aufteilen war ebenfalls aktiviert und erwünscht, da einige Images die Vorlage doppelseitig zeigen.

Lediglich die Sprachen Englisch, Deutsch und Tschechisch wurden ausgewählt. Ein Training für Musterkennung fand nicht statt, da nur gängige Schrifttypen (Antiqua) in den Vorlagen vorkommen.

Der Lesemodus war auf Gründlich gesetzt, da unserer Erfahrung nach unsere Kunden nur die beste Texterkennungsqualität nachfragen.

Unter dem Register Dokument befindet sich die neue Option Farbmodus mit den Optionen

  • Vollfarbe (behält die Farben bei, wenn Seiten hinzugefügt werden)
  • Schwarzweiß (OCR wird schneller, aber alle Farben gehen verloren).

Die getesteten Features und Ergebnisse

Geschwindigkeit: FineReader 11 verarbeitete das Testdokument im Farbmodus in 06:21 min. und war damit 30 Sekunden schneller als der Vorgänger FineReader 10.

Im Schwarzweiß-Modus benötigte er nur noch 03:23 min. und erfüllt damit den versprochenen Performance-Gewinn. In diesem Modus ist mit Einbußen bei der Erkennungsgenauigkeit zu rechnen, die allerdings sehr gering ausfallen: am auffälligsten war eine Blindheit für Seitenzahlen, was in den meisten Anwendungsfällen nicht weiter relevant sein dürfte.

Textgenauigkeit: Die Texte waren beim Roman, dem Medizin-Journal und der tschechischen Zeitung im Vergleich mit FineReader 10 identisch. Nur beim Register war eine Verbesserung in einem pedantischen Detail festzustellen: FineReader 11 kann nun besser zwischen Trennstrichen (Bindestrich, Vierviertelstrich usw.) differenzieren.

Layout-Erkennung: Auch hier waren die Ergebnisse meistens schlichtweg gleich und auf hohem Niveau richtig. Hervorzuheben sind zwei Verbesserungen:

  • Die komplexeren Tabellen (mit mehrzeiligen oder -spaltigen Zellen) im Medizin-Journal wurden nun perfekt erkannt.
  • In der Zeitung wurde ein (1!) Bereich (aus einem zwei Spalten übergreifenden Textblock und der darunterliegenden Spalte), der in FineReader 10 noch falsch verbunden war, nun auch richtig erkannt.

Layout-Export: Viel hat sich beim Layout-Export getan. Die Stilvorlagen und Bereichstrennung in ein Word-Dokument wirken auf den ersten Blick aufgeräumter als in der Vorgängerversion.

Schmerzlich vermisst wird nach wie vor eine Layout-Übertragung in ein differenziertes, maschinenlesbares Format (XML-basiert). Hier lohnt sich sicherlich eine genauere Analyse des HTML- oder EPUB-Exports und des neuen Stilvorlagen Editors.

Neue Erkennungssprache Arabisch: Mit der Erkennung von arabischer Schrift wagt Abbyy einen ersten Schritt in Richtung Erkennung von Ligaturschriften. Ein kurzer Test zeigte leider noch mäßige Ergebnisse: zwar werden generell arabische Buchstaben erkannt, die Fehlerquote ist aber noch zu hoch, sodass das Ergebnis nur eingeschränkt verwertbar erscheint. Ein Training der Mustererkennung hilft – allerdings können unerwünschte Seiteneffekte (unverbundene Buchstaben) auftreten.

Hier gibt es noch Verbesserungsbedarf.