Verbesserung von precision und recall der Sprachidentifikation

Question

neradis opened this issue 11 years ago · comments

Die Grundformliste der ASV enthält eine Reihe aus dem Lateinischen stammende Eigennamen. Wenn diese wie bisher duch case normalization in ihrer kleine geschriebenen Form als Beispiele deutsche Wortformen interpretiert werden, kommt es zu viele false positives (eigentlich lat. Wörter, die als deutsch angesehen werden). Mögliche Lösungen sind:

-> auf case normilisation beim Abgleich mit der Liste verzichten (schmälert eventl. den recall für das Erkenne deutscher Worte, aber einfachere Lösung)

-> sobald Sprachklassifikatoren mittels n-gram Sprachmodellen verfügbar sind, semi-automatisch die Latein-artigen Wort(-grund-)formen aus der ASV-Liste tilgen
ergänzen von Sprachklassifikatoren mittels n-gram Sprachmodellen, die auch für nicht in Trainingsdaten vorkommende Wortformen Abschätzungen über ihre Zugehörigekeit zu einer Sprache liefern können.
einfache Infrastruktur einrichten, durch die wir anhand von Stichproben der Wortformen in den Wörterbucheinträgen Trainings-/Testdaten zur Evaluation und Verbessung der Spracherkennung erhalten