Fallstudie II: Aufbau und Verwendung spezieller Lexika bei der Digitalisierung historischer Kollektionen

Impact CoCNews

Christoph Ringlstetter vom Centrum für Informations- und Sprachverarbeitung der Ludwig Maximilians-Universität berichtete über die Erstellung historischer Lexika im Rahmen von IMPACT.

[slideshare id=3335312&doc=ringlstetterlmubsbworkshop2010-100304085039-phpapp01]

http://www.vimeo.com/9914065

Für welche Periode nutzen spezielle Historika überhaupt? Projekt deckt 16. bis 18. Jahrhundert ab, je weiter man zurück geht, um so mehr unbekannte Wörter und Schreibvarianten findet man so z.B. ‘Teyl’, ‘Theil’ oder ‘Theyl’ – statt Teil. Selbst wenn Texterkennung diese Varianten richtig erkennt, nützt dies dem User nichts, wenn dieser nur nach dem heute orthographisch richtigen Begriff sucht. Auch lateinische Wörter (in Antiqua-Schriften) in deutschen Texten in Fraktur stellen die Texterkennung vor große Probleme.

Beispiele für problematische Fehler: Falsch erkannte, aber sinnvolle Wörter, wie z.B. ‘Tischlerei’ statt ‘Fischerei’ oder sinnlose Zeichenkombinationen wie ^.uglltt (statt August). Sehr problematisch für den Aufbau eines Suchindexes sind auch Fehler in der Wortsegmentierung, welche in historischen Texten auf Grund uneinheitlicher Wortabstände häufig auftreten.

Wie muss ein spezielles Lexikon aussehen? Für Information Retrieval wäre ein Lexikon interessant, dass ein modernes Wort mit seinen historischen Varianten verbindet, rein für die OCR würde aber auch eine reine Wortliste historischer Wörter reichen. Für IMPACT wird aber die mächtigere Variante gewählt, die historische Varianten mit modernen Lemmata verbindet.

Wo kriegt man die entsprechenden Sprachressourcen (also ‘richtige’ historische Wörter) her? Textkorpora im Netz gibt es fast nicht, für das Projekt wurden daher Texte aus dem 16. Jahrhundert von Hand ‘gekeyt'(=abgetippt). Ein großes Problem bei der Lexikonerstellung im Deutschen sind üblicherweise Komposita, diese treten in Texten des 16. und 17. Jahrhunderts aber glücklicherweise kaum auf.

Außerdem braucht man “geduldige Menschen mit linguistischem Hintergrund”, um zu verifizieren, dass alle Varianten im Wörterbuch auch historisch korrekt und richtig mit den modernen Lemmata verknüpft sind. Dabei wurden bisher bereits ca. 15.000 Einträge verifiziert, automatisch gematcht aber unüberprüft sind bis zu 100 Millionen Einträge. Tests zeigen dabei, dass ein automatisches Matching von modernen und historischen Wörtern zwar einen Teil der Verbindungen prinzipiell nicht erkennen kann (bspw. historische Flektionsformen wie ‘frug’ statt ‘fragte’), man aber dennoch im 18. und 19. Jh. ‘Precision and Recall’-Werte von gut um die 95 Prozent erreicht, während für frühere Jahrhunderte die Qualität auf deutlich unter 90 Prozent einbricht.

———————————————————————–

Christoph Ringlstetter of the Centre for Information and Language Processing of the Ludwig-Maximilians-University (LMU) presented historical dictionaries developed in IMPACT. As said in earlier talks of the day, historical texts often use language and spelling that is not found in modern dictionaries, thus presenting problems to OCR software. After some examples of these problems, he discussed the features a historical dictionary should have. For OCR alone, a simple list of outdated words would be enough, but if the goal is to also help information retrieval (as is the case with IMPACT), a dictionary has to combine a modern word with its historical variants, so that when a user searches for “Teil” (fragment, part), he would also get pages with the historical variants “Theil”, “Teyl”, or “Theyl”.

The main problem in the creation of such a dictionary was collecting the language ressources, that is correct historical words. As there are almost no readily available corpora, IMPACT had to have texts from the 16th c. rekeyed. Another problem is the connection of modern words and historical variants, where an automatic matching based on language rules can help, but will unavoidably lose some kinds of variants in the process, e.g. verbs that were once but are no longer irregular. Therefore, it’s necessary to have some “patient people with a linguistic background” to verify all the connections, especially for words from the 17th and earlier centuries.

Mark-Oliver Fischer (BSB)