THUDM / GLM

GLM (General Language Model)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

使用 kubeflow 启动分布式训练

EthanChen1234 opened this issue · comments

pretrain的启动命令是:
bash scripts/ds_pretrain_nvidia.sh config/ds_block_large.sh
ds_pretrain_nvidia.sh 中使用 deepspeed 来launch 分布式训练。

可以使用 kubeflow 来启动分布式训练么?
如果可以,麻烦给下 dockerfile 和 job yaml