Fallstudie II: Aufbau und Verwendung spezieller Lexika bei der Digitalisierung historischer Kollektionen

Impact CoCDiscussions

Christoph Ringlstetter vom Centrum für Informations- und Sprachverarbeitung der Ludwig Maximilians-Universität berichtete über die Erstellung historischer Lexika im Rahmen von IMPACT.

Dass speziell angepasste Lexika bei der Texterkennung historischer Texte äußerst hilfreich sein können, wurde schon im bisherigen Verlauf der Veranstaltung deutlich. Doch gerade hier liegen auch die Schwierigkeiten. Mangels einheitlicher orthographischer Regeln existiert eine Vielzahl unterschiedlicher Schreibweisen für die selben Worte, so z.B. ‘Teyl’, ‘Theil’ oder ‘Theyl’ – statt Teil. Selbst wenn Texterkennung diese Varianten richtig erkennt, nützt dies dem User nichts, wenn dieser nach dem orthographisch richtigen Begriff sucht. Doch immer wieder erkennt moderne OCR statt Wörtern nur sinnlose Zeichenkombinationen wie ^.uglltt (statt August) oder ist nicht in der Lage, Wörter korrekt zu segmentieren, da Wortabstände in historischen Texten oft nicht einheitlich sind.