modelscope / 3D-Speaker

A Repository for Single- and Multi-modal Speaker Verification, Speaker Recognition and Speaker Diarization

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

请教language-identification语料时数问题

jeremy110 opened this issue · comments

您好,我想训练四种语种,所以我将CAM++语种识别-中英粤日韩识别-16k当中的embedding model来初始化我的model,然后四种语种的训练时数分别为250h, 250h , 500h, 200h,每跑一个epoch 我就测试一次eval和test,test前一两个epoch acc有8成,但后面就逐渐往下掉6~7成,eval一直往上升到9成多,所以我认为是overfitting 。

想请问训练多语种,各个的时数大概需要多少,以及跟spk数量会有关系吗?

如果eval和train同源,而test与eval不同源的话,看起来是overfitting导致。训练4语种,各语种训练时长在500h-5kh应该都可以获得较有性能,与spk数量相关性我们没有研究。你可以尝试 https://github.com/modelscope/3D-Speaker/blob/main/egs/3dspeaker/language-identification/run_paraformer.sh 是最佳训练策略,极大减小过拟合概率。

感谢您快速地回复,我会再试试看的