dvlab-research / MGM

Official repo for "Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models"

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

关于多机多卡效果不如单机多卡好的问题

DePengW opened this issue · comments

你好,我在sft阶段训练llama-7b版本时候发现个问题,训练超参数保持一致(lr、step、weight_decay、warmup等)

设置1:当使用8 x a100,per_device_train_batch_size=16,gradient_accumulation_steps=2,totol_batch_size = 128
设置2:当使用2 x 8 x a100,per_device_train_batch_size=16,gradient_accumulation_steps=1,totol_batch_size = 128

设置1的各个指标都比设置2好,请问这个问题您们有关注过么?

我使用gemma-2b也会出现同样的情况,这可能是关于多机多卡和单机多卡性能的问题,您们之前有注意过么?以及有什么解决方案么

@DePengW
我跑 llava-1.5 的时候也发现了同样的问题,保持各种超参数一致,4 node 的结果不如 1 node 的。感觉自己做实验的时候保持node 数量一样就行。