neradis / index-vivus

student project to present lexical knowledge from XML-transcriptions of dictionaries in an interactive web interface for easier lookup and explorative search

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Verbesserung von precision und recall der Sprachidentifikation

neradis opened this issue · comments

  1. Die Grundformliste der ASV enthält eine Reihe aus dem Lateinischen stammende Eigennamen. Wenn diese wie bisher duch case normalization in ihrer kleine geschriebenen Form als Beispiele deutsche Wortformen interpretiert werden, kommt es zu viele false positives (eigentlich lat. Wörter, die als deutsch angesehen werden). Mögliche Lösungen sind:

    -> auf case normilisation beim Abgleich mit der Liste verzichten (schmälert eventl. den recall für das Erkenne deutscher Worte, aber einfachere Lösung)

    -> sobald Sprachklassifikatoren mittels n-gram Sprachmodellen verfügbar sind, semi-automatisch die Latein-artigen Wort(-grund-)formen aus der ASV-Liste tilgen
  2. ergänzen von Sprachklassifikatoren mittels n-gram Sprachmodellen, die auch für nicht in Trainingsdaten vorkommende Wortformen Abschätzungen über ihre Zugehörigekeit zu einer Sprache liefern können.
  3. einfache Infrastruktur einrichten, durch die wir anhand von Stichproben der Wortformen in den Wörterbucheinträgen Trainings-/Testdaten zur Evaluation und Verbessung der Spracherkennung erhalten