Der neue Abbyy FineReader 11 – schneller und weiterhin (nur) bestens

Abbyy veröffentlichte Anfang September 2011 seine Texterkennungssoftware FineReader in einer neuen Version 11. Wir haben die neue Version getestet, die Resultate hinsichtlich Text- und Layout-Genauigkeit sowie Geschwindigkeit der Verarbeitung mit der Vorgängerversion verglichen.

Das Ergebnis lässt sich leicht zusammenfassen: Die neue Version ist ein Performance-Update! Die Qualität der Text- und Layouterkennung hat sich (so gut wie) gar nicht verändert – die Ergebnisse waren im Vergleich zu FineReader 10 auf gleichbleibend hohem Niveau korrekt. Eine Verbesserung ist nur an ganz wenigen Stellen festzustellen.

Wie ist diese Release-Politik zu verstehen? Die Fehlerfreiheit der Texterkennung befindet sich seit mindestens FineReader 10 auf höchstem Niveau. Sie liegt bei weit über 99,8 Prozent. Ein Text für gängige Schriftarten ist meist fehlerfrei, wobei falsch erkannte Buchstaben entweder auf fehlerhafte Vorlagen oder 50:50-Entscheidungen zurückzuführen sind. Ebenso ist die Layout-Erkennung so weit fortgeschritten, dass es dem Augenschein nach so gut wie nichts zu verbessern gibt. Problemstellen sind meist auch für Menschen Problemstellen.

Dass sich Abbyy vor allem auf eine Steigerung der Performance konzentriert, ist vermutlich als Vorbereitung auf den nächsten Versionsschritt zu erklären: für FineReader 11 wurde viel Programmcode aufgeräumt und auf parallele Verarbeitung hin optimiert. Diese Performance-Steigerung schafft Platz für weitere Erkennungsalgorithmen, z. B. für neue Schriften oder Layouttypen, die allerdings erst in der nächsten Version zu erwarten sind. Mit der neuen Version leistet Abbyy also zunächst einmal Produktpflege hinter den Kulissen. Ein Kauf oder Update lohnt sich unseres Erachtens vor allem für Projekte, in denen sehr große Seitenmengen verarbeitet werden müssen.

Die Hintergründe und einige Details zum Test können Sie im Folgenden nachlesen.

Das Testdokument

Das Testdokument besteht aus vier unterschiedlich komplexen Vorlagen:

  • Acht Seiten aus einem wissenschaftlichen Medizin-Journal in englischer Sprache. Dieses Dokument enthielt ein relativ einfaches Zweispalten-Layout aber mit Fußnoten, Tabellen, Bildern, Grafiken. – Images: Graustufen, 600 dpi.
  • Acht Seiten aus einem Roman in deutscher Sprache. Das Layout war sehr einfach: Textblöcke und Seitenzahlen. – Images: 300 dpi, Graustufen.
  • Acht Seiten aus einem Index einer Urkundenedititon in deutscher Sprache. – Images: Farbe, 400 dpi.
  • Vier Seiten einer tschechischen Zeitung: Das Layout ist durch Spalten, mehrspaltige Überschriften, Fotografien und Bildbeischriften sehr komplex. Eine Seite weist sehr viel Text und für das Tschechische typisch viele diakritische Zeichen auf. – Images: Farbe, 400 dpi.

Alle Eingabebilder zeigten die Vorlage – mit Ausnahme der Zeitung – doppelseitig.

Was musste FineReader 11 leisten?

  • Deskewing: Die Vorlagen waren zwar bereits akkurat gerade gescannt, dennoch leistet FineReader eine weitere Korrektur nach eigenem Ermessen (meist nur minimal im niedrigen einstelligen Gradbereich).
  • Seitentrennung: Die Doppelseiten mussten getrennt werden – dies findet bei uns normalerweise mit der Schwarzrand-Entfernung statt.
  • Layouterkennung: Das Layout musste analysiert werden – von einfach (Roman) bis komplex (Zeitung).
  • Zeichenerkennung: Die Zeichen mussten korrekt erkannt werden:
    • in einem deutschem Prosatext,
    • in einem tschechischen Zeitungstext mit vielen sprachenspezifischen kombinierten Zeichen,
    • in einem englischen medizinischen Fachtext samt zahlreicher Abkürzungen,
    • in einem Index aus Zahlen und unbekannten Namen.

In den ersten beiden Fällen wird die Erkennung durch ein Wörterbuch unterstützt; in den letzten beiden Fällen kann FineReader sich nur auf die reine Zeichenerkennung verlassen.

Die Abbyy-Einstellungen

FineReader 11 lief mit den Standard-Einstellungen: Durch die aktivierte Bildvorverarbeitung wurden evtl. Bilder leicht gedreht. Die aktivierte Seitenausrichtung war eigentlich unnötig. Gegenüberliegende Seiten aufteilen war ebenfalls aktiviert und erwünscht, da einige Images die Vorlage doppelseitig zeigen.

Lediglich die Sprachen Englisch, Deutsch und Tschechisch wurden ausgewählt. Ein Training für Musterkennung fand nicht statt, da nur gängige Schrifttypen (Antiqua) in den Vorlagen vorkommen.

Der Lesemodus war auf Gründlich gesetzt, da unserer Erfahrung nach unsere Kunden nur die beste Texterkennungsqualität nachfragen.

Unter dem Register Dokument befindet sich die neue Option Farbmodus mit den Optionen

  • Vollfarbe (behält die Farben bei, wenn Seiten hinzugefügt werden)
  • Schwarzweiß (OCR wird schneller, aber alle Farben gehen verloren).

Die getesteten Features und Ergebnisse

Geschwindigkeit: FineReader 11 verarbeitete das Testdokument im Farbmodus in 06:21 min. und war damit 30 Sekunden schneller als der Vorgänger FineReader 10.

Im Schwarzweiß-Modus benötigte er nur noch 03:23 min. und erfüllt damit den versprochenen Performance-Gewinn. In diesem Modus ist mit Einbußen bei der Erkennungsgenauigkeit zu rechnen, die allerdings sehr gering ausfallen: am auffälligsten war eine Blindheit für Seitenzahlen, was in den meisten Anwendungsfällen nicht weiter relevant sein dürfte.

Textgenauigkeit: Die Texte waren beim Roman, dem Medizin-Journal und der tschechischen Zeitung im Vergleich mit FineReader 10 identisch. Nur beim Register war eine Verbesserung in einem pedantischen Detail festzustellen: FineReader 11 kann nun besser zwischen Trennstrichen (Bindestrich, Vierviertelstrich usw.) differenzieren.

Layout-Erkennung: Auch hier waren die Ergebnisse meistens schlichtweg gleich und auf hohem Niveau richtig. Hervorzuheben sind zwei Verbesserungen:

  • Die komplexeren Tabellen (mit mehrzeiligen oder -spaltigen Zellen) im Medizin-Journal wurden nun perfekt erkannt.
  • In der Zeitung wurde ein (1!) Bereich (aus einem zwei Spalten übergreifenden Textblock und der darunterliegenden Spalte), der in FineReader 10 noch falsch verbunden war, nun auch richtig erkannt.

Layout-Export: Viel hat sich beim Layout-Export getan. Die Stilvorlagen und Bereichstrennung in ein Word-Dokument wirken auf den ersten Blick aufgeräumter als in der Vorgängerversion.

Schmerzlich vermisst wird nach wie vor eine Layout-Übertragung in ein differenziertes, maschinenlesbares Format (XML-basiert). Hier lohnt sich sicherlich eine genauere Analyse des HTML- oder EPUB-Exports und des neuen Stilvorlagen Editors.

Neue Erkennungssprache Arabisch: Mit der Erkennung von arabischer Schrift wagt Abbyy einen ersten Schritt in Richtung Erkennung von Ligaturschriften. Ein kurzer Test zeigte leider noch mäßige Ergebnisse: zwar werden generell arabische Buchstaben erkannt, die Fehlerquote ist aber noch zu hoch, sodass das Ergebnis nur eingeschränkt verwertbar erscheint. Ein Training der Mustererkennung hilft – allerdings können unerwünschte Seiteneffekte (unverbundene Buchstaben) auftreten.

Hier gibt es noch Verbesserungsbedarf.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Bitte lösen Sie folgende Aufgabe *