aigc-apps / sd-webui-EasyPhoto

📷 EasyPhoto | Your Smart AI Photo Generator.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

训练人物被中断

RonnieChenR opened this issue · comments

训练人物:像是会被kill中断,这个有时又不会,训练人物是有成功过的,是不是有什么图像要求,这边上传的都是正面照
image

我总结一下问题, 曾经完成过正常的训练流程,但截图表现在100step (validate的时候) 被意外中断了,并且这个中断不是你手动触发的(外部 ctrl+c)。

我来follow一下这个问题,我在之前的多次测试中从没有遇见过,可能要麻烦你提供你的机器环境

机器是否有内存与cpu的限制,可能是占用资源太多导致被系统kill,可以尝试减少num_works为0或者1
image

机器是否有内存与cpu的限制,可能是占用资源太多导致被系统kill,可以尝试减少num_works为0或者1 image
内存cpu确实有限制,也有出现过GPU oom的情况,我先试试哈

@RonnieChenR 后续如果确认这个问题可以通过调整参数解决,也可以提供一下您机器的配置,我们也方便在readme上的配置部分做一些提示,方便用户遇到类似问题,跳转到这里做一些参考。

我是第一次训练的时候就出现这个报错,
./webui.sh: line 254: 17164 Aborted "${python_cmd}" "${LAUNCH_SCRIPT}" "$@"
我的解决方法是:在webui.sh中第227行注释掉代码 # export LD_PRELOAD="${TCMALLOC}"

prepare_tcmalloc() {
    if [[ "${OSTYPE}" == "linux"* ]] && [[ -z "${NO_TCMALLOC}" ]] && [[ -z "${LD_PRELOAD}" ]]; then
        TCMALLOC="$(PATH=/usr/sbin:$PATH ldconfig -p | grep -Po "libtcmalloc(_minimal|)\.so\.\d" | head -n 1)"
        if [[ ! -z "${TCMALLOC}" ]]; then
            echo "Using TCMalloc: ${TCMALLOC}"
           # export LD_PRELOAD="${TCMALLOC}"  #注释掉
        else
            printf "\e[1m\e[31mCannot locate TCMalloc (improves CPU memory usage)\e[0m\n"
        fi
    fi
}

我不知道该方法是否合理,但是注释掉之后确实可以正常训练了。

机器重启第一次训练结束后GPU高占用不下,
image

image
这个时候如进行第二次训练则会出错OOM

@RonnieChenR 后续如果确认这个问题可以通过调整参数解决,也可以提供一下您机器的配置,我们也方便在readme上的配置部分做一些提示,方便用户遇到类似问题,跳转到这里做一些参考。

image
这个问题在更改num_works为0后得到了解决

感谢 @RonnieChenR 我们会在下一个更新中 提供这个ISSUE 供后面的使用者参考。