请问训练的batch-size是多大呢？除了使用大显存GPU外，是否还使用其他增大batch-size的技巧？

Question

iamlockelightning opened this issue a year ago · comments

很棒的工作👍🎉 在HuggingFace的模型页面看到为了保证 in-batch 负采样的效果，我们使用 A100 80G 来最大化 batch-size。想请问一下：训练的batch-size是多大呢？除了使用大显存GPU外，是否还使用其他增大batch-size的技巧？

yuxin.wang · Answer 1 · Thu Jun 15 2023 10:17:49 GMT+0800 (China Standard Time)

我们 base 的模型 batch_size 是 80,small 模型是 256

可以采用和现在大模型训练时类似的策略进行训练，比如 torch 的 Fully Shard DDP ，注意 DDP 是没有意义的，因为没有增加实际的 batch_size 。

Chengjiang · Answer 2 · Thu Jun 15 2023 14:23:27 GMT+0800 (China Standard Time)

感谢解答！👍