Dokumentstrukturerkennung

Impact CoC Discussions, Optical Character Recognition

Günter Mühlberger from the University and Regional Library of Tyrol in Innsbruck presented the Functional Extension Parser (FEP), a tool for the OCR-based structural analysis of printed texts.


Günter Mühlberger von der Universitäts- und Landesbibliothek Tirol in Innsbruck thematisierte die Strukturanalyse auf der Basis von OCR-Ergebnissen  mit Hilfe der bisher FEP – Functional Extension Parser – genannten Software.

Die Strukturanalyse erkennt dabei für Bücher typische Strukturmerkmale, wie den Satzspiegel, Seitenzahlen, Spaltentitel, Bogenzählung oder Einträge in Inhaltsverzeichnissen.

Dies kann beispielsweise dazu dienen, die Navigation im Dokument oder zwischen Dokumenten zu erleichtern (Fußnoten könnten zu den zitierten Texten oder Datenbanken verlinken), Suchergebnisse relevanter zu gestalten (wenn Spaltentitel aus dem Suchkorpus rausgerechnet werden) oder bei der Erstellung von Faksimiles zu helfen (Satzspiegel).

Auf der IMPACT-Abschlusskonferenz am 24. und 25. Oktober 2011 in der British Library soll die Graphische Benutzeroberfläche erstmals demonstriert werden, bis Ende des Jahressoll eine Alpha-Version fertig sein. Bisher ist geplant, interessierten Institutionen die Software als Webservice anzubieten.

RM (BSB); Mark-Oliver Fischer (BSB)

Share this Post