The-Learning-And-Vision-Atelier-LAVA / ArbSR

[ICCV 2021] Learning A Single Network for Scale-Arbitrary Super-Resolution

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

你好

ZW-PRO opened this issue · comments

请问您是在什么卡训练的,具体数量以及训练时间呢,谢谢

Hi @beiyu555, 我们在实验中使用了2块2080Ti进行训练,大约需要18个小时左右的时间。

提供的代码默认参数也是两块训练的吗

@beiyu555 是的,可以在这里进行修改。

1.DataLoader worker (pid 25340) is killed by signal:killed
我在两张P100(16G)采用默认的参数训练,大概训练8个epoch后出现上错误 貌似是进程被杀死 请问你遇到过吗
2.想问下 训练的时候只有DIV2K训练集吗 没有验证集什么的?

Hi @beiyu555。

  1. 应该是内存不足导致的
  2. 如果想要在训练过程中每个epoch后在验证集上测试当前epoch的性能的话,可以在trainer.py中L20加入t.test()

我们实验室集群16G的卡,我觉得内存应该足够的
1634031331(1)
这是我训练了4个epoch的情况 请问这内存是否是正常的情况。
我还尝试修改num_works的数量为0但是报错 为1L1的loss会变得非常糟糕。

训练的时候内存使用量在每个Epoch之后都会增加,不知道为什么。而且我用两张P100训练估计要两天多。

Hi @beiyu555, 我是指内存不足,不是显存不足,dataloader在加载数据的时候会占用不少内存,一旦内存不足进程就被kill掉了。至于速度,P100本身就比2080Ti略慢一些,另外整体速度还跟硬盘、cpu等很多因素有关。我看截图里1个epoch大约25分钟,确实比我们慢一些。

你好,我尝试复现代码,训练到后面的Epochs的L1loss突然变的非常大(十几万这种),不知道什么原因

你好,我尝试复现代码,训练到后面的Epochs的L1loss突然变的非常大(十几万这种),不知道什么原因

你好,请问你有解决loss突然变大的问题吗