[Question]: Lora微调
Bit-sjw opened this issue · comments
Description
Lora微调,为什么2张V100 32G显存,跟4张V100的训练速度一样? hostfile有修改成4,
而且2张GPU时,GPU利用率都是100%
4张也都是100%
Alternatives
No response
请问您说的训练速度是elapsed time per iteration (ms) 吗?
这个信息每次只统计了一张卡,不是全局的
hi @Bit-sjw 你有没有遇到 File "/home/yumengda/.local/lib/python3.9/site-packages/flagai/model/aquila2/aquila2_flash_attn_monkey_patch.py", line 10, in
from flash_attn.bert_padding import pad_input, unpad_input
ModuleNotFoundError: No module named 'flash_attn'
因为flash_attn不支持v100,有什么快速解决方案吗?