modelscope / 3D-Speaker

A Repository for Single- and Multi-modal Speaker Verification, Speaker Recognition and Speaker Diarization

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

sv-eres2net训练异常

canglangzhishuiz opened this issue · comments

数据集:voxceleb
训练脚本: sv-eres2net
运行bash run.sh后,控制台输出如下,一直没有更新:
截屏2024-03-26 15 57 18
nvitop显示如下,也一直没有更新:
截屏2024-03-26 16 00 43
请问这种情况正常吗?

看起来不太正常,因为模型训练会输出相关信息,而从日志来看模型并没有开启训练,但是你的GPU利用率却是100%,推测原因可能是有其他程序占用GPU,导致你现在跑的程序无法推进。你可以将GPU上的任务全部清空再从stage 3开始训练。

我的GPU上无其它进程,是不是和显卡有关系,我的训练设备为h800

H800也可以正常运行吧,你重新启动程序试试呢?你的GPU利用率是100%,还有其他程序在运行?你可以好好检查有无输出日志:3D-Speaker/egs/voxceleb/sv-eres2net/exp/eres2net/train.log。

cat exp/eres2net/train.log
截屏2024-03-26 17 06 48
镜像和程序都尝试重启过,输出都一样。

好的,非常感谢🙏🙏🙏。
成功解决了,运行bash run.sh之前,export NCCL_P2P_DISABLE=1