Digitalisierung und OCR-Erkennung in Bibliotheken. Einige Anmerkungen aus der Praxis

Impact CoCDiscussions, Optical Character Recognition

Günter Mühlberger von der Universitätsbibliothek Innsbruck  berichtete davon, wie OCR in bibliothekarischen Digitalisierungsprojekten eingesetzt wurde und wird, sowie was gute und schlechte Digitalisierung für OCR ausmacht.

[slideshare id=3344349&doc=mhlbergerlibrarydigitisation-100305090548-phpapp01]

http://www.vimeo.com/9938851

Er konstatierte, dass OCR in Bibliotheken bisher eher stiefmütterlich behandelt wird, da man die zusätzlichen Kosten scheut und die Probleme für zu groß hält. Für Googles Digitalisierungsprojekt scheint dagegen zu gelten ‘Jedes erkannte Wort ist besser als kein erkanntes Wort’. Tatsächlich bedeutet OCR anfänglich einen deutlichen Zusatzaufwand, man muss sie bei allen Schritten eines Projekts bedenken und evtl. Änderungen vornehmen.

Am Anfang steht dabei die Frage, was man scannen möchte – gebundene Vorlagen, lose Blätter, Mikrofilme -, mit welcher Technik man arbeitet – Buchscanner in Handauflage oder Scanroboter – und schließlich, ob man überhaupt selber scannen oder das Projekt einem Dienstleister im In- oder Ausland übergeben will.

Bei jeder Technik das entscheidendste bleibt die Sorgfalt des Scan-Operateurs. Ein gutes Bild ist scharf, richtig ausgeleuchtet (heller Hintergrund, deutlich erkennbare Buchstaben), kein Durchscheinen von der Rückseite, etc.

Nach der Vorstellung diverser Beispiel guter wie schlechter Vorlagen widmete Herr Mühlberger sich der Frage, welches die ideale Auflösung und Farbtiefe für OCR sei. Auch wenn es hier verschiedene Sichtweisen gibt, zeige die eigene Erfahrung, dass im Zweifelsfall die höhere Variante (400 statt 300 dpi, 24 bit Farbe statt 1 bit bitonal) immer vorzuziehen sei.

Auch bei der Frage, welche Erkennungsrate man anstrebe, herrsche keine Einigkeit. Einerseits gilt eine Genauigkeit von unter 90% sicher richtig erkannten Wörtern als schlecht, andererseits muss digitalisierenden Institutionen wie Nutzern klar sein, dass Texterkennung immer Fehler produzieren wird. Fehler müssen also nicht peinlich sein.

Nach einigen konkreten Beispielen aus der Praxis von gut und weniger gut erkannten Vorlagen wurde die Frage der Korrektur von OCR-Ergebnissen behandelt. Hier gibt es positive Beispiele wie ein ‘crowd-sourcing’-Projekt in Australien, wo Nutzer ehrenamtlich jeden Monat 400 bis 1000 Seiten historischer Zeitungen korrigieren. Im Rahmen von IMPACT werden von IBM und von der Ludwig-Maximilians-Universität Werkzeuge zur professionellen Korrektur auf kollaborativer Basis entwickelt.

Wie kann man die Ergebnisse einer OCR weiterverwenden? Hier entwickelt IMPACT beispielsweise den Functional Extension Parser, der OCR-Ergebnisse um Strukturinformationen anreichert. Dies erhöht aber auch den Aufwand jeder Archivierung der Ergebnisse, hier gibt es mehrere konkurrierende Formate wie ALTO, Abbyy XML, etc.

Zusammenfassend lasse sich sagen, dass OCR inzwischen Pflicht sei. Ergebnisse für das 19. und 20. Jahrhundert seien schon sehr gut, für die Zeiten davor lassen sich deutliche Fortschritte durch IMPACT erwarten.

——————————————————————————————————

Günter Mühlberger of the University Library Innsbruck (UIBK) talked about how OCR is used in libraries’ digitisation project and how (not) to digitise for OCR.  For most libraries, OCR is just something costly and complex, so it’s not done at all. If you want to ‘do’ OCR, you have to rethink and adjust all parts of you project. When planning a digitisation project(with or without OCR), the first questions usually are what to digitise (bound books, loose pages, microfilm, …?), how to digitise (book scanner, scan robot, …?), and if to digitise for yourself at all, or assign a service provider. But in all cases, accuracy and care of the one operating the scanner have more influence than technology on the quality of the results.

Regarding the question for the ‘ideal’ resolution and colour depth of images for OCR, there are competing points of view, but UIBK’s own experience shows that in critical cases, more is better (400 instead of 300 dpi, 24 bit colour instead of 1 bit bitonal or 8 bit greyscale).  The talk also touched on the question of what is a ‘good’ recognition rate, on ideas for collaborative correction of OCR results and the challenges of archiving text recognition output. In conclusion: OCR is an obligation, results for 19th and 20th c. are already good, for the centuries before that IMPACT will provide noticeable improvements.

Mark-Oliver Fischer (BSB)