Computerlexica in OCR en zoekmachines – Katrien Depuydt van INL op #IMPACTDemo

Impact CoCDiscussions

  • Computerlexicon
  • Wat doen lexica in IMPACT
  • Gereedschappen voor het bouwen van lexica
  • Resultaten
  • Demonstratie zoeken

IMPACT heeft een OCR lexicon voor gebruik bij scannen = nagekeken lijst van woorden in een taal. Voor zoeken is er de Information Retrieval lexicon waarbij gezocht kan worden op een moderne vorm en ook de historische vormen worden gevonden. Voor wetenschappelijk onderzoek zijn deze vrij te verkrijgen!

[slideshare id=6958415&doc=depuydtkb2011-110217040802-phpapp02]

Katrien Depuydt van het INL over hun werk in IMPACT:

Uiteindelijk levert INL een heel cookbook met benodigdheden en recepten om zelf lexica te bouwen!

INL heeft een Retrieval Demonstrator gebouwd om de bibliotheken van IMPACT te laten zien hoe goed de lexica werken in zoekmachines. Historische spellingsvarianten worden ook gevonden wanneer wordt gezocht op wereld. Zoals beloofd door Katrien tijdens de eerste conferentie van IMPACT.

—————————-

Katrien Depuydt of the INL talks about their work in IMPACT:

  • Computerlexica
  • Use of lexica in IMPACT
  • Lexicon building tools
  • Results
  • Demonstration of the Retrieval demonstrator

IMPACT has an OCR lexicon (a checked list of words in a language) for use with scanning. There is also an Information Retrieval lexicon to improve search: when searching for a modern day term you will also find historical variants. These lexica will become freely available for research purposes!

At the end of IMPACT, INL will deliver a Lexicon Cookbook with ingredients and recipes for building lexica yourself!

INL has also built a Retrieval Demonstrator to show libraries the benefit of using lexica in search engines. When searching for the modern Dutch word ‘ wereld’  (world) the application also found many historical spelling variants, as promised by Katrien at the first IMPACT conference in 2009.

Lotte Wilms, Koninklijke Bibliotheek