speaker-diarization进行说话人识别的时候，一小时的音频最后十分钟缺失，text里面最大时间戳是50分钟左右

Question

speaker-diarization进行说话人识别的时候，一小时的音频最后十分钟缺失，text里面最大时间戳是50分钟左右

xztzmr opened this issue 5 months ago · comments

from modelscope.pipelines import pipeline
sd_pipeline = pipeline(
task='speaker-diarization',
model='damo/speech_campplus_speaker-diarization_common',
model_revision='v1.0.0'
)

请问是音频太长不支持还是什么原因？

Hui Wang · Answer 1 · Tue Mar 26 2024 09:59:36 GMT+0800 (China Standard Time)

支持任意长度的音频，这种情况出现可能的原因是，方法中使用了https://modelscope.cn/models/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch/summary VAD模型，来检测有效语音片段，然后对有效语音片段进行识别，如果有缺失现象可能是VAD模型错误识别该部分没有有效语音。
可以单独调用VAD模型验证一下

xztzmr · Answer 2 · Tue Mar 26 2024 10:01:48 GMT+0800 (China Standard Time)

好的多谢