Volltextdigitalisierung

Um in Digitalisaten – wie von Internet-Suchmaschinen gewohnt – nach Worten und Wortgruppen suchen zu können, ist eine Volltextdigitalisierung notwendig. Auch für viele weiterführende redaktionelle Arbeiten, etwa Stichwortlisten oder wortgenaue Verlinkungen, sind Volltexte Voraussetzung. Die Texterfassung erfolgt, je nach Vorlage, entweder manuell oder mittels OCR (Optical Character Recognition). In beiden Fällen werden die Texte von uns intensiv korrekturgelesen und Zeichen für Zeichen mit der Vorlage verglichen. So gewährleisten wir eine Fehlerfreiheit von bis zu 99,995 %.

Für die intelligente Weiternutzung der Daten ist eine Strukturierung notwendig. Dabei werden sowohl Formatierungen wie fett oder kursiv als auch inhaltliche Merkmale wie Textgattungen oder Zuordnungen zu Datenbankfeldern ausgezeichnet. Abbildungen werden über Referenzen auf Bilddateien eingebunden. In der Praxis haben sich dafür verschiedene programm- und plattformunabhängige XML-Standards durchgesetzt, etwa EAD für elektronische Findmittel oder TEI für retrodigitalisierte Texte.

1. Vorlage (Buchseite)


Giebelspitze

2. Texterfassung

Giebelspitze, höchster Teil eines Giebelfeldes. Der
bei reicher Ausbildung eines Holzgiebels über das Gespärre
hinausragende Giebelspieß setzt seinen Fuß
auf eine querlaufende Zange (s. die Figur) auf und trägt
so das Ende der Firstpfette. Weinbrenner.

3. strukturiertes XML

4. Artikel Giebelspitze bei Zeno.org

Artikel Giebelspitze bei Zeno.org