你好
ZW-PRO opened this issue · comments
请问您是在什么卡训练的,具体数量以及训练时间呢,谢谢
Hi @beiyu555, 我们在实验中使用了2块2080Ti进行训练,大约需要18个小时左右的时间。
提供的代码默认参数也是两块训练的吗
@beiyu555 是的,可以在这里进行修改。
1.DataLoader worker (pid 25340) is killed by signal:killed
我在两张P100(16G)采用默认的参数训练,大概训练8个epoch后出现上错误 貌似是进程被杀死 请问你遇到过吗
2.想问下 训练的时候只有DIV2K训练集吗 没有验证集什么的?
Hi @beiyu555。
- 应该是内存不足导致的
- 如果想要在训练过程中每个epoch后在验证集上测试当前epoch的性能的话,可以在trainer.py中L20加入
t.test()
。
训练的时候内存使用量在每个Epoch之后都会增加,不知道为什么。而且我用两张P100训练估计要两天多。
Hi @beiyu555, 我是指内存不足,不是显存不足,dataloader在加载数据的时候会占用不少内存,一旦内存不足进程就被kill掉了。至于速度,P100本身就比2080Ti略慢一些,另外整体速度还跟硬盘、cpu等很多因素有关。我看截图里1个epoch大约25分钟,确实比我们慢一些。
好的,我就尽量调大内存,其他没什么问题了。谢谢您的耐心解答
…---原始邮件---
发件人: "Longguang ***@***.***>
发送时间: 2021年10月12日(周二) 晚上9:55
收件人: ***@***.***>;
抄送: ***@***.******@***.***>;
主题: Re: [LongguangWang/ArbSR] 你好 (#10)
Hi @beiyu555, 我是指内存不足,不是显存不足,dataloader在加载数据的时候会占用不少内存,一旦内存不足进程就被kill掉了。至于速度,P100本身就比2080Ti略慢一些,另外整体速度还跟硬盘、cpu等很多因素有关。我看截图里1个epoch大约25分钟,确实比我们慢一些。
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.
Triage notifications on the go with GitHub Mobile for iOS or Android.
你好,我尝试复现代码,训练到后面的Epochs的L1loss突然变的非常大(十几万这种),不知道什么原因
你好,我尝试复现代码,训练到后面的Epochs的L1loss突然变的非常大(十几万这种),不知道什么原因
你好,请问你有解决loss突然变大的问题吗