训练人物被中断
RonnieChenR opened this issue · comments
我总结一下问题, 曾经完成过正常的训练流程,但截图表现在100step (validate的时候) 被意外中断了,并且这个中断不是你手动触发的(外部 ctrl+c)。
我来follow一下这个问题,我在之前的多次测试中从没有遇见过,可能要麻烦你提供你的机器环境
@RonnieChenR 后续如果确认这个问题可以通过调整参数解决,也可以提供一下您机器的配置,我们也方便在readme上的配置部分做一些提示,方便用户遇到类似问题,跳转到这里做一些参考。
我是第一次训练的时候就出现这个报错,
./webui.sh: line 254: 17164 Aborted "${python_cmd}" "${LAUNCH_SCRIPT}" "$@"
我的解决方法是:在webui.sh中第227行注释掉代码 # export LD_PRELOAD="${TCMALLOC}"
prepare_tcmalloc() {
if [[ "${OSTYPE}" == "linux"* ]] && [[ -z "${NO_TCMALLOC}" ]] && [[ -z "${LD_PRELOAD}" ]]; then
TCMALLOC="$(PATH=/usr/sbin:$PATH ldconfig -p | grep -Po "libtcmalloc(_minimal|)\.so\.\d" | head -n 1)"
if [[ ! -z "${TCMALLOC}" ]]; then
echo "Using TCMalloc: ${TCMALLOC}"
# export LD_PRELOAD="${TCMALLOC}" #注释掉
else
printf "\e[1m\e[31mCannot locate TCMalloc (improves CPU memory usage)\e[0m\n"
fi
fi
}
我不知道该方法是否合理,但是注释掉之后确实可以正常训练了。
@RonnieChenR 后续如果确认这个问题可以通过调整参数解决,也可以提供一下您机器的配置,我们也方便在readme上的配置部分做一些提示,方便用户遇到类似问题,跳转到这里做一些参考。
感谢 @RonnieChenR 我们会在下一个更新中 提供这个ISSUE 供后面的使用者参考。