lyuwenyu / RT-DETR

[CVPR 2024] Official RT-DETR (RTDETR paddle pytorch), Real-Time DEtection TRansformer, DETRs Beat YOLOs on Real-time Object Detection. 🔥 🔥 🔥

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

训练过程中显卡卡死

guxiaowei1 opened this issue · comments

图片
训练过程中报错,显卡100%,把batch-size设置高点可以正常运行,错误如下:
RuntimeError: NCCL communicator was aborted on rank 1. Original reason for failure was: [Rank 1] Watchdog caught collective operation timeout: WorkNCCL(SeqNum=490, OpType=BROADCAST, Timeout(ms)=1800000) ran for 1806194 milliseconds before timing out.

paddle版本还是torch版本


可以star这个仓库,其他问题再留言

paddle版本还是torch版本

可以star这个仓库,其他问题再留言

是pytorch 版本,我猜测可能是dataloader处理这块出了问题

请问您解决这个问题了吗?

同样的问题,有木有解决方法呀。单卡可以跑,多卡就是这样报错,是不是数据集泄漏😭

同样的问题,有木有解决方法呀。单卡可以跑,多卡就是这样报错,是不是数据集泄漏😭

同样的问题,请问解决了吗,单卡可以跑,两张卡就报错

同样的问题,有木有解决方法呀。单卡可以跑,多卡就是这样报错,是不是数据集泄漏😭

同样的问题,请问解决了吗,单卡可以跑,两张卡就报错

我最终也没有解决,就是直接换大内存的显卡就行,3090似乎就可以了,我用的A100就可以多卡了(大约占22个G内存左右吧

同样的问题,有木有解决方法呀。单卡可以跑,多卡就是这样报错,是不是数据集泄漏😭

同样的问题,请问解决了吗,单卡可以跑,两张卡就报错

我最终也没有解决,就是直接换大内存的显卡就行,3090似乎就可以了,我用的A100就可以多卡了(大约占22个G内存左右吧

你是用3090单卡跑的是吗?我现在想用4090两张卡跑不通。

同样的问题,有木有解决方法呀。单卡可以跑,多卡就是这样报错,是不是数据集泄漏😭

同样的问题,请问解决了吗,单卡可以跑,两张卡就报错

我最终也没有解决,就是直接换大内存的显卡就行,3090似乎就可以了,我用的A100就可以多卡了(大约占22个G内存左右吧

你是用3090单卡跑的是吗?我现在想用4090两张卡跑不通。

我当时2080ti,bs啥的都调整成最小是可以跑起来的,后来是A100按照论文的数据可以跑起来多卡。4090不太了解,按理来说不应该呀,你要不试试把训练参数调小一些?

同样的问题,有木有解决方法呀。单卡可以跑,多卡就是这样报错,是不是数据集泄漏😭

同样的问题,请问解决了吗,单卡可以跑,两张卡就报错

我最终也没有解决,就是直接换大内存的显卡就行,3090似乎就可以了,我用的A100就可以多卡了(大约占22个G内存左右吧

你是用3090单卡跑的是吗?我现在想用4090两张卡跑不通。

我当时2080ti,bs啥的都调整成最小是可以跑起来的,后来是A100按照论文的数据可以跑起来多卡。4090不太了解,按理来说不应该呀,你要不试试把训练参数调小一些?

谢谢了,我现在尝试把numwork调成了1,bachsize调成16直接卡在训练之前,改成32才可以训练,但是训练中途会卡。

尝试更换batch_size或者num_workers(可以试试把num_works更换为8)

尝试更换batch_size或者num_workers(可以试试把num_works更换为8)

实际上是不行的,可能是因为你显卡内存大于22G(就可以按照官方给的默认参数跑,似乎num work就是8,bs是4)。如果在2080ti上,即便bs调整为1都会nccl通信错误

commented

唉,折腾快一个月了,仍然没有解决这个问题,实在是不明白到底什么地方出现了问题。4张3060源代码就没有问题,但是只要一改进,跑不出1个epoch就卡死。

唉,折腾快一个月了,仍然没有解决这个问题,实在是不明白到底什么地方出现了问题。4张3060源代码就没有问题,但是只要一改进,跑不出1个epoch就卡死。

我的建议是看看他们的dataloader处理是不是有问题,因为有其它issue中提到了脏数据溢出问题。你这个单卡要是没问题,多卡报NCCL通信错误估计就还是那个问题,后面我用的A100基本随便改都不会出现问题了。

唉,折腾快一个月了,仍然没有解决这个问题,实在是不明白到底什么地方出现了问题。4张3060源代码就没有问题,但是只要一改进,跑不出1个epoch就卡死。

或者你找找显存大于20G的例如3090和4090应该也是可以的

commented

唉,折腾快一个月了,仍然没有解决这个问题,实在是不明白到底什么地方出现了问题。4张3060源代码就没有问题,但是只要一改进,跑不出1个epoch就卡死。

或者你找找显存大于20G的例如3090和4090应该也是可以的

感谢大哥,我回去试试。

commented

我后来换了一个内存特别大的服务器,就跑起来了,内存100+G

---原始邮件--- 发件人: @.> 发送时间: 2024年6月15日(周六) 晚上9:09 收件人: @.>; 抄送: @.@.>; 主题: Re: [lyuwenyu/RT-DETR] 训练过程中显卡卡死 (Issue #185) 唉,折腾快一个月了,仍然没有解决这个问题,实在是不明白到底什么地方出现了问题。4张3060源代码就没有问题,但是只要一改进,跑不出1个epoch就卡死。 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

麻了哥,我按照你说的,换了一个128G内存的服务器,仍然会卡死。