wangyuxinwhy / uniem

unified embedding model

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

请问训练的batch-size是多大呢?除了使用大显存GPU外,是否还使用其他增大batch-size的技巧?

iamlockelightning opened this issue · comments

很棒的工作👍🎉 在HuggingFace的模型页面看到为了保证 in-batch 负采样的效果,我们使用 A100 80G 来最大化 batch-size。想请问一下:训练的batch-size是多大呢?除了使用大显存GPU外,是否还使用其他增大batch-size的技巧?

我们 base 的模型 batch_size 是 80,small 模型是 256

可以采用和现在大模型训练时类似的策略进行训练,比如 torch 的 Fully Shard DDP ,注意 DDP 是没有意义的,因为没有增加实际的 batch_size 。

感谢解答!👍