DFG Projekt RSNSR

Regelbasierte Suche in Textdatenbanken mit nichtstandardisierter Rechtschreibung (RSNSR)
(Rule based search in text databases with non standard orthography)

Im Kontext eines Digitalisierungsprojekts zur Nietzsche-Rezeption aus den Jahren 1865 - 1945, das seit mehreren Jahren in Duisburg in Zusammenarbeit mit dem Nietzsche-Kolleg in Weimar verfolgt wird, beschäftigt sich das RSNSR-Projekt mit der Erforschung und Entwicklung eines linguistischen Regelsystems, einer Transformationsmethodik und zeitabhängiger Filter zur Unterstützung der Suche in Textdokumenten in nichtstandardisierter Rechtschreibung.

Es wurde bereits eine Java-basierte Suchmaschine erstellt, welche es durch einen neu entwickelten phonetischen Regelsatz ermöglicht, auf Texten, die mehrere hundert Jahre vor der Rechtschreibvereinheitlichung des Jahres 1901 verfasst wurden, eine Suche mittels orthographisch genormter Schlagwörter durchzuführen. Durch Einführung eines Abstandsbegriffs sind verschiedene Stufen der ähnlichkeit realisiert. Außerdem erlaubt der Algorithmus durch einen zusätzlichen speziellen Regelsatz auch die Suche nach Wörtern, welche durch OCR-Software fehlerhaft erkannt wurden. Die Suchmaschine ist in das online-verfügbare HTML-basierte Nietzsche-Archiv integriert.

Im Oktober 2004 hat die DFG den Antragstellern Prof. Dr. Norbert Fuhr (Informationssysteme, Digitale Bibliotheken), Prof. Dr. Wolfram Luther (Angewandte Informatik, Digitale Bibliotheken) und Prof. Dr. Ulrich Ammon (Linguistik) von der Universität Duisburg-Essen eine zweijährige Sachbeihilfe gewährt. Die Förderung wird von Frau Andrea Ernst-Gerlach und Herrn Thomas Pilz zum 01.01.2005 wahrgenommen werden. Zum 01.01.2007 wurde das Projekt um zwei weitere Jahre verlängert.

Mit der regelbasierten Suche verfolgen wir einen anderen Ansatz als viele große Wörterbuchprojekte. Indem nicht mit statischen Wortlisten gearbeitet wird, erhoffen wir uns eine höhere Trefferquote, besonders bei Texten mit stark variierender Schreibung. Zusätzlich wird der Arbeitsaufwand durch manuelle Eintragung von Wort-Relationen vermieden. Andererseits hoffen wir durch Grundlagenforschung, besonders in den Bereichen der Phonem-Graphem-Struktur des Deutschen, der unscharfen Suche und der Ähnlichkeitsmetriken, einen Wortabstandsbegriff zu definieren, der sowohl eine größtmögliche Differenzierung unterschiedlicher als auch Zusammenfassung äquivalenter Wörter ermöglicht. Neben der Anwendung als Suchmaschine sind auch Einsatzpunkte im Vergleich oder der temporal-lokalen Einordnung von Texten denkbar. Zentraler Betrachtungszeitraum sind für uns die Jahre 1700 - 1900. Eine spätere Ausweitung des Regelsatzes auch auf frühere Zeitabschnitte ist durchaus möglich. Im Einzelnen verfolgt das Projekt die folgenden Ziele:

  • Entwicklung von Zeit- und Ortfiltern für phonetische Regeln, Revision der Regeln aus der Textbasis und aus statistischen Analysen, Nutzung eines Kontrollwörterbuchs gegen Homonymhäufung.
  • Entwicklung eines neuen adäquaten Abstandsbegriffs auf der Basis eines modifizierten graphematischen und phonetischen Levenshtein-ähnlichkeitsmaßes, Berücksichtigung typischer Erfassungsfehler, Entwicklung von Unschärfeskalen.
  • Integration der Suchmaschinen in das Nietzsche Projekt und in andere Systeme, Entwicklung von Regelsätzen und Erweiterung der Suchmaschine auf (früh-)neuhochdeutsche Archive.

Hauptsächliche Arbeitspunkte für diesen Zeitraum sind

  • Effizienz und Verbesserung des Tools
  • Grundlagenforschung zum regelbasierten Ansatz
  • Untersuchungen zur Levenshtein-Distanz
  • Vergleich regelbasierter mit Wörterbuch-basierter Suche
  • Einbringung der Suchmaschine in andere Projekte, u.a. das Nietzsche-Projekt

Mittelfristig wird eine Realisierung mit einem Java-Frontend, einem Web-Server und einer modernen XML-basierten Archivlösung angestrebt, die auch in vergleichbaren Digitalisierungsprojekten Anwendung finden kann.

Druckversion
@ Universität Duisburg-Essen, Fak. IngWi, Abt. INKO, Fachgebiet SCG Kontakt webmaster (at) inf.uni-due.de -- Login