hpcaitech / ColossalAI-Examples

Examples of training models with hybrid parallelism using ColossalAI

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

运行GPT2案例出现RuntimeError: Could not find 'SLURM_PROCID'问题,是必须要装SLURM环境?

ZXM1063694570 opened this issue · comments

🐛 Describe the bug

使用了提供的Dockerhub上的镜像0.1.7,但是在运行GPT案例时候出现RuntimeError: Could not find 'SLURM_PROCID'问题,并且在0.1.8镜像版本中也是如此
M4QKMAI76Q~U952 KAY5Y
T4GKG9P$KSS$XIGXL7{EVAM
这是我的run脚本:
260CY7X5}DOF1363S{4PJ`1
其中我的gpt2_configs配置换了其他的配置也出现同样的问题

Environment

docker pull hpcaitech/colossalai:0.1.7 & 0.1.8
pip install transformers
pip install titans

8张A100

加一下 --from_torch在启动命令args里。没加默认用slurm启动