训练速度问题

Question

训练速度问题

MoyangSensei opened this issue 4 years ago · comments

MoyangSensei commented 4 years ago

作者你好。我想问一下我这个每一轮的训练时间对吗？

如果是20s一轮这个速度的话，10万轮根本不是短时间能解决的。

所以想问一下如何提高训练速度？还是说我这边的配置什么的会影响训练速度？

软件配置基本都按照给出的来配，tf和numpy的版本较高一点。设置文件里我讲gpu数从2改成了4，多线程数从6改到了8，我不知道这是否有影响。

MaybeShewill-CV · Answer 1 · Thu Apr 30 2020 14:21:59 GMT+0800 (China Standard Time)

@MoyangSensei 正常来讲不应该这么慢，但是我这边只实验过2卡的情况。4卡的话算平均梯度的时候会慢一点，但是是不是能慢到20s一个iter我不能确定。如果你确认你的gpu是正常使用的，然后cudnn也正常那就只能等着了。顺便说下如果你的batch size比较大的话可以适当减小迭代的次数，增大一点学习率:)

MoyangSensei · Answer 2 · Thu Apr 30 2020 16:26:40 GMT+0800 (China Standard Time)

@MoyangSensei 正常来讲不应该这么慢，但是我这边只实验过2卡的情况。4卡的话算平均梯度的时候会慢一点，但是是不是能慢到20s一个iter我不能确定。如果你确认你的gpu是正常使用的，然后cudnn也正常那就只能等着了。顺便说下如果你的batch size比较大的话可以适当减小迭代的次数，增大一点学习率:)

1、实际上我并不知道如何确认我在运行代码的时候GPU是不是在正常运行。所以我也怀疑是GPU的问题。如果GPU不进行工作的话，代码还能正常运行吗？还有我注意到了在我运行的过程中报了这样一段warning，或者说这也是影响之一（我并没有百度到这个warning到底是什么影响）？

2、昨天晚上发现了速度慢之后，我尝试调整了图片集合的大小。原train中有861张图片，我选取了三分之一的图片数量，运行了代码大概10小时左右，仅仅只有1100轮。发现这每一轮的时间最长甚至达到了60s。按理来说缩小了图片集，训练时间会显著下降。

3、batch size、学习率都没做修改（1，0.002）。我会尝试修改再去运行。

谢谢。

MoyangSensei · Answer 3 · Thu Apr 30 2020 16:27:46 GMT+0800 (China Standard Time)

上面图片中的信息。

I0430 04:19:32.423439 27312 train_model.py:250] {'TRAIN': {'EPOCHS': 100010, 'LEARNING_RATE': 0.0002, 'GPU_MEMORY_FRACTION': 0.98, 'TF_ALLOW_GROWTH': True, 'BATCH_SIZE': 1, 'IMG_HEIGHT': 256, 'IMG_WIDTH': 376, 'CROP_IMG_HEIGHT': 240, 'CROP_IMG_WIDTH': 360, 'CPU_MULTI_PROCESS_NUMS': 8, 'GPU_NUM': 4}, 'TEST': {'GPU_MEMORY_FRACTION': 0.9, 'TF_ALLOW_GROWTH': False, 'BATCH_SIZE': 1, 'IMG_HEIGHT': 240, 'IMG_WIDTH': 360}}
I0430 04:19:32.423691 27312 train_model.py:254] Training from scratch
2020-04-30 04:19:33.421531: W tensorflow/compiler/jit/mark_for_compilation_pass.cc:1412] (One-time warning): Not using XLA:CPU for cluster because envvar TF_XLA_FLAGS=--tf_xla_cpu_global_jit was not set. If you want XLA:CPU, either set that envvar, or use experimental_jit_scope to enable XLA:CPU. To confirm that XLA is active, pass --vmodule=xla_compilation_cache=1 (as a proper command-line flag, not via TF_XLA_FLAGS) or set the envvar XLA_FLAGS=--xla_hlo_profile.

MaybeShewill-CV · Answer 4 · Thu Apr 30 2020 16:30:07 GMT+0800 (China Standard Time)

@MoyangSensei 最简单就是nvidia-smi 看下你的gpu utilization是否一直是0

MoyangSensei · Answer 5 · Sun May 03 2020 17:18:38 GMT+0800 (China Standard Time)

@MoyangSensei 最简单就是nvidia-smi 看下你的gpu utilization是否一直是0

这几天再次搞了下环境，确实是我的GPU没有正常工作，正常情况下，bs写1的时候0.4s一轮，bs写2的时候0.8s一轮。

顺便想问一下作者，能否提供一些提高结果的思路，就是那两个指标psnr和ssim。我这边在做本科生毕设，想做一下参考。

十分感谢。

MaybeShewill-CV · Answer 6 · Wed May 06 2020 11:02:57 GMT+0800 (China Standard Time)

@MoyangSensei 去雨每年都有很多论文你可以多关注下学术论文哈:)