THUDM / GLM

GLM (General Language Model)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

多机并行可以给点示例吗?

lulia0228 opened this issue · comments

作者们好,想用多机多卡方式traing,可以提供一下2机的示例吗?hostfile应该怎么写?

hostfile的示例为

worker-1 slots=8
worker-2 slots=8

其中worker-1和worker2是能够从当前机器在不用密码的情况下通过ssh连接(通常需要设置密钥对)的机器,通常的格式为username@ipslots=8表示一台机器上有8张GPU。

感谢回复,想请教一下,你们GLM第一篇论文的工作最大的是10B,是通过多少个8卡节点完成的,hostfile里面指定太多worker通信会灾难吗(因为看到镜像配置了节点间SSH免密);GLM-130B是不是用了更好的节点管理方式?

感谢回复,想请教一下,你们GLM第一篇论文的工作最大的是10B,是通过多少个8卡节点完成的,hostfile里面指定太多worker通信会灾难吗(因为看到镜像配置了节点间SSH免密);GLM-130B是不是用了更好的节点管理方式?

使用了大概50个8卡节点。ssh只是用来启动进程的,几十甚至几百个节点的ssh都不会造成通信的堵塞。训练的时候模型的梯度同步需要很高的吞吐量,需要高带宽的网络支持。