训练问题

Question

训练问题

blankspace415 opened this issue 3 years ago · comments

你好再次来打扰你了我在训练时候train.info.log中反馈的是训练到8700轮不给反馈信息了
2021-12-03 15:46:39 - train: epoch 0001, iter [08200, 58633], lr: 0.000100, total_loss: 0.4340, cls_loss: 0.2691, reg_loss: 0.1649
2021-12-03 15:47:37 - train: epoch 0001, iter [08300, 58633], lr: 0.000100, total_loss: 0.6410, cls_loss: 0.4634, reg_loss: 0.1775
2021-12-03 15:48:35 - train: epoch 0001, iter [08400, 58633], lr: 0.000100, total_loss: 0.5121, cls_loss: 0.2628, reg_loss: 0.2494
2021-12-03 15:49:28 - train: epoch 0001, iter [08500, 58633], lr: 0.000100, total_loss: 0.4244, cls_loss: 0.2080, reg_loss: 0.2165
2021-12-03 15:50:28 - train: epoch 0001, iter [08600, 58633], lr: 0.000100, total_loss: 0.5233, cls_loss: 0.3370, reg_loss: 0.1864
2021-12-03 15:51:25 - train: epoch 0001, iter [08700, 58633], lr: 0.000100, total_loss: 0.9907, cls_loss: 0.6687, reg_loss: 0.3220
而且也没有生成权重训练几次都是在这个地方卡主了不知道是该继续训练还是哪里需要改动
请问这是怎么一回事呢

blankspace415 · Answer 1 · Fri Dec 03 2021 16:19:12 GMT+0800 (China Standard Time)

用的是您的预训练的权重resnet50_retinanet_resize800_coco-epoch12-mAP0.355.pth
和resnet的预训练权重resnet50-epoch100-acc76.512.pth

zgcr · Answer 2 · Sun Dec 05 2021 13:14:11 GMT+0800 (China Standard Time)

看看你的训练进程是不是自己卡住了或者被人杀掉了，不是的话，把train_loader的 pin_memory设为False

blankspace415 · Answer 3 · Mon Dec 06 2021 19:40:29 GMT+0800 (China Standard Time)

我改了一下还是不行而且我是云平台3080ti跑的 64g内存应该够吧也不知道哪里有问题了。。

zgcr · Answer 4 · Sat Dec 11 2021 17:33:03 GMT+0800 (China Standard Time)

我改了一下还是不行而且我是云平台3080ti跑的 64g内存应该够吧也不知道哪里有问题了。。

你好，建议还是检查下自己的机器和配置环境，你这个问题之前从来没有遇到过。。。

blankspace415 · Answer 5 · Sat Dec 11 2021 17:34:28 GMT+0800 (China Standard Time)

我用3090跑400 batch设置大一点发现只要每轮迭代次数少于8700轮就不会报错了。。暂时可以训练了