ainy / shershe

Speech recognition dataset based on russian audiobook, sentance-level split

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Разметка аудиокниги Николая Старикова "Шерше ля нефть" в озвучке Эндшпиля

Набор данных для машинного обучения распознаванию речи.

Аудиопоток разбвается на окна в 10 мс. Частота дискретизации книги 44100 Гц, то есть одно окно - 441 значений.

Главы разбиты на уровне предложений. Разбивка приведена в поле data(остальные поля не нужны) списками из 3х значений:

  • номер первого окна в предложении (с отступом),
  • номер последнего окна в предложении (с отступом),
  • строка целевых меток. Один символ строки - одна фонема. Прописными буквами обозначены мягкие согласные (сь, ть, пь...), строчными твёрдые. Цифрами обозначены шипящие: 1=ч, 2=ш, 3=ж, 4=щ. Пробелы опущены.

В каталоге scripts мои скрипты для разбивки аудиокниг

About

Speech recognition dataset based on russian audiobook, sentance-level split

License:MIT License


Languages

Language:Python 100.0%