使用speaker diarization结合视频的DER结果效果比单音频的还要差，请问这可以微调嘛？

Question

使用speaker diarization结合视频的DER结果效果比单音频的还要差，请问这可以微调嘛？

Coconut059 opened this issue 3 months ago · comments

在MISP2021数据集上使用speaker diarization，使用cam++模型，audio_only:MISS=23;FA=2.56;SER=9;DER=35;;audio_visual:MISS=23,FA=2.56;SER=15;DER=40;
在eval数据上DER差距更大分别是36%和48%，请问clustering部分可以微调嘛

Hui Wang · Answer 1 · Fri Apr 12 2024 22:18:35 GMT+0800 (China Standard Time)

可以调，但是当前pipeline无法处理overlap的问题，而MISP有大量的overlap，如果想在MISP数据集上做出好的结果，建议follow历届MISP的report，使用多模态的TASVD方案

Coconut059 · Answer 2 · Fri Apr 12 2024 22:22:14 GMT+0800 (China Standard Time)

可以调，但是当前pipeline无法处理overlap的问题，而MISP有大量的overlap，如果想在MISP数据集上做出好的结果，建议follow历届MISP的report，使用多模态的TASVD方案
谢谢！想问一下该代码效果比较好的数据集有哪些？同时如果可以调整audio和visual的联合聚类的话要怎么调呢

Hui Wang · Answer 3 · Mon Apr 15 2024 09:37:09 GMT+0800 (China Standard Time)

我们后续会开源一个overlap较少的音视频数据集。调参可以试着调整下conf/diar_video.yaml中的vision_cluster.fix_cos_thr