Fallstudie I: OCR & Strukturierung – Entstehung und Präsentation von unterschiedlichen Erschließungsarten

Impact CoCDiscussions, Optical Character Recognition

Karl Märker (BSB) präsentierte drei Beispiele unterschiedlicher Erschließungsarten aus Projekten der Bayerischen Staatsbibliothek, die noch vor IMPACT entstanden.

[slideshare id=3334901&doc=mrkercasestudy1karlmaerker-100304080253-phpapp02]

http://www.vimeo.com/9914036

Warum überhaupt OCR? OCR bietet nicht nur die Möglichkeit, im Text zu suchen, sondern ermöglicht auch Verweise (Links) innerhalb der Texte, erleichtert das Ausdrucken und die Lesbarkeit bei z.B. Frakturschriften und schlecht erhaltenen Vorlagen, sofern der Volltext den Nutzen zugänglich gemacht wird. Abzuwägen sind bei jedem Projekt selbstverständlich die vorhandenen Ressourcen (Zeit, Geld, Infrastruktur) und das Ziel, welches man erreichen will.

Die drei Beispiele repräsentieren verschiedene Erschließungsarten. Als Beispiel eines seitenbezogenen Volltexts diente die “Zeitschrift für Bayerische Landesgeschichte”, für die “Sitzungsberichte des Reichstags” wurde eine Registererschließung mit Seitenverweisen gewählt, während das “Biographische Lexikon von Lipowsky” als Beispiel für einen inhaltlich voll erschlossenen Volltext dient.

Die Zeitschrift für Bayerische Landesgeschichte diente als Beispiel einer sehr einfachen Erschließung. Es wurde mit ‘schmutziger’, also unkorrigierter OCR gearbeitet, zusätzlich wurden die Artikeltitel und Katalogdaten erschlossen. Eine Suche verweist auf die Seite, der OCR-Volltext wird nicht angezeigt.

Die Berichte der Sitzungen des Reichstags wurden bisher nur auf Registerebene erschlossen, eine weitere Anreicherung über die Personennamendatei PND und eine Verknüpfung mit den Handbüchern des Reichstags ist in Arbeit.  Da die Sitzungsberichte von der Zeit des Norddeutschen Bundes bis ins ‘Dritte Reich’ reichen, besteht eine große Heterogenität der Register, teils wurde nach Sach- und Personenregister getrennt, teils sind die Register gemischt. Suchmöglichkeiten bestehen auf der Ebene von Registereinträgen, nach Jahrgängen, Stichworten und PND.

Bei den Biographischen Lexika von Felix Joseph Lipowsky wurde eine halbautomatische Auszeichnung innerhalb des Textes gewählt, bei der Orte, Personennamen und Berufe ausgezeichnet wurden, nach denen auch gesucht werden kann. Volltext und Digitalisat sind miteinander verlinkt.

Zum Ausblick: Ideal wäre es, OCR bei allen Digitalisaten in Antiquaschrift zu verwenden, automatisch strukturiert mit Überschriften, Seitenzahlen, etc. Je nach Projekt bietet sich eine weitere inhaltliche Erschließung in Handarbeit oder automatisch an. Auch eine projektübergreifende Erschließung wie bei der PND bietet große Vorteile.

————————————————

Karl Märker of the Bavarian State Library (BSB) presented three examples of different kinds of indexing of digital ressources. For the Journal for Bavarian Regional History, ‘dirty’ (=uncorrected) OCR was used. In addition, only the titles of articles and metadata from the catalogue were indexed. A search leads to the page, the search term is not highlighted, nor is the full text shown to the user. For the Session Reports of the German Reichstag and its Precursors only the registers were indexed until now. For additional enhancement, the reports will be linked to the Reichstag handbooks and the “Personennamendatei” PND. A problem with the register index lies in the great heterogeneity of the registers. Some are divided in subject and people indices, some not, for example. For the Biographical Dictionaries by Felix Joseph Lipowsky, a semi-automatic indexing by places, person names and occupations was used, full text and digital image are linked and can be used parallel.

Mark-Oliver Fischer (BSB)