modelscope / 3D-Speaker

A Repository for Single- and Multi-modal Speaker Verification, Speaker Recognition and Speaker Diarization

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

speaker-diarization进行说话人识别的时候,一小时的音频最后十分钟缺失,text里面最大时间戳是50分钟左右

xztzmr opened this issue · comments

from modelscope.pipelines import pipeline
sd_pipeline = pipeline(
task='speaker-diarization',
model='damo/speech_campplus_speaker-diarization_common',
model_revision='v1.0.0'
)

请问是音频太长不支持还是什么原因?

支持任意长度的音频,这种情况出现可能的原因是,方法中使用了https://modelscope.cn/models/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch/summary VAD模型,来检测有效语音片段,然后对有效语音片段进行识别,如果有缺失现象可能是VAD模型错误识别该部分没有有效语音。
可以单独调用VAD模型验证一下

好的多谢