snakers4 / russian_stt_text_normalization

Russian text normalization pipeline for speech-to-text and other applications based on tagging s2s networks

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Примеры, на которых модель отрабатывает неверно

Islanna opened this issue · comments

Тикет с логом всех найденных багов, которые планируется включить в следующий релиз.

Добавить в датасет:

  • окончание -ая: 1-ая;
  • точка вместо десятичной запятой: 9.5 грамм;
  • одно число с десятичной запятой, без слов вокруг: 32,5;
  • квартира: 25 квартира;
  • кабинет: 24 кабинет;
  • руб., $, : 500 руб.;
  • = как равно;

Пофиксить кейсы с ч-часами и г-годами.

Hi:
I'm a TTS researcher working in china.
Only model file is provided in your repo.
Could you share with us how you train your s2s model and
what the difference of model structure between the paper bellow.
https://arxiv.org/abs/1911.04128

Hi @casioexlim
We were not planning on sharing this

Проблемы с шестизначными и более числами.

768324: семьсот шестьдесят восемь триста двадцать четыре. (триады без множителя "тысяч")
100000: сто три ноля ноль. (результат странный)
201000: двести один тысяч. (нет склонения)
7683241: семь шесть восемь три два четыре один. (семизначное, разбивает на отдельные цифры)

Версии пакетов:
numpy 1.19.4
torch 1.8.0.dev20201201+cpu

Проблемы с династическими именами:

Для женских пытается склонять, но в мужском роде и с ошибкой падежей.
Екатерина II: Екатерина второго.
Екатерину II: Екатерину второй.

Для мужских склонять не пытается.
Павлу II: Павлу два.
Павла II: Павла два.

Проблема с сокращениями:

  • т.е. - то есть
  • ч.т.д. - что и требовалось доказать

Проблемы с шестизначными и более числами.

Не баг, а фича, как говорится.
Обычно люди читают большие числа по цифрам, если это, например, номер заказа. Либо по триадам, если это индекс или номер телефона.

За остальные примеры спасибо! Добавим в датасет.

Обычно люди читают большие числа по цифрам, если это, например, номер заказа. Либо по триадам, если это индекс или номер телефона.

В любом случае, вместо цифр нужны триады. Очень неудачно смотрится "Цена автомобиля три восемь четыре четыре ноль ноль ноль рублей."
Оптимально, привязать произношение к контексту. Для телефона будет одно, для №/заказа — другое, для остального, в том числе рублей/километров — третье.

Сейчас намёки есть, но тоже с ошибкой. Расстояние до луны...
384 400 км. (сокращение с разделением триад пробелом) пишет правильно: триста восемьдесят четыре тысячи четыреста километров. Остальные варианты, без разделения или с полным словом — 384400 км., 384 400 километров., 384400 километров., — пишет триадами : триста восемьдесят четыре четыреста километров.

А когда планируется обновление модели?