yeyupiaoling / PPASR

基于PaddlePaddle实现端到端中文语音识别,从入门到实战,超简单的入门案例,超实用的企业项目。支持当前最流行的DeepSpeech2、Conformer、Squeezeformer模型

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

wenetspeech数据集

wwfcnu opened this issue · comments

这个数据集中有9000多小时无标签的数据,这部分数据在哪可以获取呢

一样是在下载的数据集里面的,按照下面判断划分获取就行

text = segment_file['text']
confidence = segment_file['confidence']