你好

Question

你好

ZW-PRO opened this issue 3 years ago · comments

About Three Z commented 3 years ago

请问您是在什么卡训练的，具体数量以及训练时间呢，谢谢

Longguang Wang · Answer 1 · Mon Oct 11 2021 20:32:51 GMT+0800 (China Standard Time)

Hi @beiyu555, 我们在实验中使用了2块2080Ti进行训练，大约需要18个小时左右的时间。

About Three Z · Answer 2 · Mon Oct 11 2021 21:12:45 GMT+0800 (China Standard Time)

提供的代码默认参数也是两块训练的吗

Longguang Wang · Answer 3 · Mon Oct 11 2021 21:20:18 GMT+0800 (China Standard Time)

@beiyu555 是的，可以在这里进行修改。

About Three Z · Answer 4 · Tue Oct 12 2021 14:28:14 GMT+0800 (China Standard Time)

1.DataLoader worker (pid 25340) is killed by signal:killed
我在两张P100（16G）采用默认的参数训练，大概训练8个epoch后出现上错误貌似是进程被杀死请问你遇到过吗
2.想问下训练的时候只有DIV2K训练集吗没有验证集什么的？

Longguang Wang · Answer 5 · Tue Oct 12 2021 17:10:42 GMT+0800 (China Standard Time)

Hi @beiyu555。

应该是内存不足导致的
如果想要在训练过程中每个epoch后在验证集上测试当前epoch的性能的话，可以在trainer.py中L20加入t.test()。

About Three Z · Answer 6 · Tue Oct 12 2021 17:37:41 GMT+0800 (China Standard Time)

我们实验室集群16G的卡，我觉得内存应该足够的

这是我训练了4个epoch的情况请问这内存是否是正常的情况。
我还尝试修改num_works的数量为0但是报错为1L1的loss会变得非常糟糕。

About Three Z · Answer 7 · Tue Oct 12 2021 21:40:54 GMT+0800 (China Standard Time)

训练的时候内存使用量在每个Epoch之后都会增加，不知道为什么。而且我用两张P100训练估计要两天多。

Longguang Wang · Answer 8 · Tue Oct 12 2021 21:55:47 GMT+0800 (China Standard Time)

Hi @beiyu555, 我是指内存不足，不是显存不足，dataloader在加载数据的时候会占用不少内存，一旦内存不足进程就被kill掉了。至于速度，P100本身就比2080Ti略慢一些，另外整体速度还跟硬盘、cpu等很多因素有关。我看截图里1个epoch大约25分钟，确实比我们慢一些。

About Three Z · Answer 9 · Tue Oct 12 2021 22:02:53 GMT+0800 (China Standard Time)

好的，我就尽量调大内存，其他没什么问题了。谢谢您的耐心解答

…

---原始邮件--- 发件人: "Longguang ***@***.***> 发送时间: 2021年10月12日(周二) 晚上9:55 收件人: ***@***.***>; 抄送: ***@***.******@***.***>; 主题: Re: [LongguangWang/ArbSR] 你好 (#10) Hi @beiyu555, 我是指内存不足，不是显存不足，dataloader在加载数据的时候会占用不少内存，一旦内存不足进程就被kill掉了。至于速度，P100本身就比2080Ti略慢一些，另外整体速度还跟硬盘、cpu等很多因素有关。我看截图里1个epoch大约25分钟，确实比我们慢一些。 — You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android.

About Three Z · Answer 10 · Thu Oct 14 2021 15:46:21 GMT+0800 (China Standard Time)

你好，我尝试复现代码，训练到后面的Epochs的L1loss突然变的非常大（十几万这种），不知道什么原因

fjt0324 · Answer 11 · Tue Nov 15 2022 10:13:43 GMT+0800 (China Standard Time)

你好，我尝试复现代码，训练到后面的Epochs的L1loss突然变的非常大（十几万这种），不知道什么原因

你好，请问你有解决loss突然变大的问题吗