使用 kubeflow 启动分布式训练
EthanChen1234 opened this issue · comments
Ethan Chen commented
pretrain的启动命令是:
bash scripts/ds_pretrain_nvidia.sh config/ds_block_large.sh
ds_pretrain_nvidia.sh 中使用 deepspeed 来launch 分布式训练。
可以使用 kubeflow 来启动分布式训练么?
如果可以,麻烦给下 dockerfile 和 job yaml