Набор данных для машинного обучения распознаванию речи.
Аудиопоток разбвается на окна в 10 мс. Частота дискретизации книги 44100 Гц, то есть одно окно - 441 значений.
Главы разбиты на уровне предложений. Разбивка приведена в поле data
(остальные поля не нужны) списками из 3х значений:
- номер первого окна в предложении (с отступом),
- номер последнего окна в предложении (с отступом),
- строка целевых меток. Один символ строки - одна фонема. Прописными буквами обозначены мягкие согласные (сь, ть, пь...), строчными твёрдые. Цифрами обозначены шипящие: 1=ч, 2=ш, 3=ж, 4=щ. Пробелы опущены.
В каталоге scripts
мои скрипты для разбивки аудиокниг