使用speaker diarization结合视频的DER结果效果比单音频的还要差，请问这可以微调嘛？

Question

使用speaker diarization结合视频的DER结果效果比单音频的还要差，请问这可以微调嘛？

Coconut059 opened this issue 3 months ago · comments

在MISP2021数据集上使用speaker diarization，使用cam++模型，audio_only:MISS=23;FA=2.56;SER=9;DER=35;;audio_visual:MISS=23,FA=2.56;SER=15;DER=40;
在eval数据上DER差距更大分别是36%和48%，请问clustering部分可以微调嘛