多机并行可以给点示例吗?
lulia0228 opened this issue · comments
lulia0228 commented
作者们好,想用多机多卡方式traing,可以提供一下2机的示例吗?hostfile应该怎么写?
Zhengxiao Du commented
hostfile的示例为
worker-1 slots=8
worker-2 slots=8
其中worker-1和worker2是能够从当前机器在不用密码的情况下通过ssh连接(通常需要设置密钥对)的机器,通常的格式为username@ip
。slots=8
表示一台机器上有8张GPU。
lulia0228 commented
感谢回复,想请教一下,你们GLM第一篇论文的工作最大的是10B,是通过多少个8卡节点完成的,hostfile里面指定太多worker通信会灾难吗(因为看到镜像配置了节点间SSH免密);GLM-130B是不是用了更好的节点管理方式?
Zhengxiao Du commented
感谢回复,想请教一下,你们GLM第一篇论文的工作最大的是10B,是通过多少个8卡节点完成的,hostfile里面指定太多worker通信会灾难吗(因为看到镜像配置了节点间SSH免密);GLM-130B是不是用了更好的节点管理方式?
使用了大概50个8卡节点。ssh只是用来启动进程的,几十甚至几百个节点的ssh都不会造成通信的堵塞。训练的时候模型的梯度同步需要很高的吞吐量,需要高带宽的网络支持。