请教language-identification语料时数问题

Question

请教language-identification语料时数问题

jeremy110 opened this issue 4 days ago · comments

您好，我想训练四种语种，所以我将CAM++语种识别-中英粤日韩识别-16k当中的embedding model来初始化我的model，然后四种语种的训练时数分别为250h, 250h , 500h, 200h，每跑一个epoch 我就测试一次eval和test，test前一两个epoch acc有8成，但后面就逐渐往下掉6~7成，eval一直往上升到9成多，所以我认为是overfitting 。

想请问训练多语种，各个的时数大概需要多少，以及跟spk数量会有关系吗?

Chen Yafeng · Answer 1 · Mon Jul 15 2024 10:21:29 GMT+0800 (China Standard Time)

如果eval和train同源，而test与eval不同源的话，看起来是overfitting导致。训练4语种，各语种训练时长在500h-5kh应该都可以获得较有性能，与spk数量相关性我们没有研究。你可以尝试 https://github.com/modelscope/3D-Speaker/blob/main/egs/3dspeaker/language-identification/run_paraformer.sh 是最佳训练策略，极大减小过拟合概率。

jeremy110 · Answer 2 · Mon Jul 15 2024 10:24:52 GMT+0800 (China Standard Time)

感谢您快速地回复，我会再试试看的