请问训练的batch-size是多大呢?除了使用大显存GPU外,是否还使用其他增大batch-size的技巧?
iamlockelightning opened this issue · comments
很棒的工作👍🎉 在HuggingFace的模型页面看到为了保证 in-batch 负采样的效果,我们使用 A100 80G 来最大化 batch-size
。想请问一下:训练的batch-size是多大呢?除了使用大显存GPU外,是否还使用其他增大batch-size的技巧?
我们 base 的模型 batch_size 是 80,small 模型是 256
可以采用和现在大模型训练时类似的策略进行训练,比如 torch 的 Fully Shard DDP ,注意 DDP 是没有意义的,因为没有增加实际的 batch_size 。
感谢解答!👍