Optische Zeichen Erkennung (OCR) – Einführung & Überblick

Impact CoCNews

Michael Fuchs von Abbyy Europe bot einen Überblick über OCR (Optical Character Recognition – Optische Zeichenerkennung), und die Arbeit von Abbyy in IMPACT.

[slideshare id=3345003&doc=fuchsocr-100305102902-phpapp02]

http://vimeo.com/9909858

Nach einem kurzen Überblick über die Geschichte und die Produkte von Abbyy begann Herr Fuchs mit ‘captchas’ – kleinen Textschnipseln zur Identifikation ‘echter Menschen’ im Internet – da sie eben nicht von OCR gelesen werden können. Eben so wie die historischen Texte, die IMPACT eben doch maschinenlesbar machen will.

Schwierigkeiten für die OCR historischer Texte können dabei aus zwei ‘Richtungen’ auftreten: Probleme durch die Vorlage (alte Schriften wie Fraktur, veraltete Wörter und Schreibweisen, handschriftliche Anmerkungen, komplexes Layout, etc.) sowie Probleme durch das digitale Bild (schlechte Binarisierung, Staub auf dem Bild, Wölbungen und Falten in den Seiten, durchscheinende Seiten, etc.)

Wie funktioniert OCR konkret? Die Bilder müssen natürlich in die Software geladen werden, diese versucht dann zuerst die Struktur des Dokumentes zu erkennen (Absätze, Zeilen, Wörter, …). Dann werden die einzelnen Buchstaben anhand ihrer Form und Wörter anhand eines Wörterbuchs erkannt.

Was will IMPACT hier tun? Im Bereich Bildqualität wird an Verbesserungen der Bildvorbereitung gearbeitet, bspw. an verbesserter Binarisierung der Ausgangsimages. Bei der Dokumentanalyse besteht eine Hauptschwierigkeit im komplexen Layout historischer Texte, vor allem alte Zeitungen stellen eine große Herausforderung dar, hier wird an Verbesserungen der Layoutanalyse gearbeitet. Im Bereich der eigentlichen Zeichen- und Worterkennung werden spezielle Wörterbücher zu historischen Sprachen und Schreibvarianten sowie Erkennungsmuster für historische Buchstaben entwickelt werden. Im Bereich der ‘Nacharbeiten’ gibt es interessante Überlegungen zu kollaborativer Korrektur.

Wir bitten die schlechte Tonqualität der ersten Vorträge zu entschuldigen, wir hatten anfangs mit technischen Schwierigkeiten zu kämpfen.

——————————————————————————————–

Michael Fuchs of Abbyy Europe presented an overview of OCR (Optical Character Recognition) and Abbyy’s participation in IMPACT. After a short overview of Abbyy’s history and products he presented in detail how OCR works – and where the problems with historical texts lie. Problems arising form the text – like old typefaces, and out-dated language and spelling are amplified by problems arising from the original or digitised page – curved or cracked pages, text from opposite pages shining through, low contrast images and the like – make the correct recognition very complex.  IMPACT tries to find solutions for all these challenges, e.g. by developing special dictionaries for historical languages and spelling variants.

Please excuse the bad sound quality of these early speeches, as we had to overcome some technical difficulties.

Mark-Oliver Fischer (BSB)