chatglm用deepspeed多卡推理问题

Question

flyme2023 opened this issue a year ago · comments

你好，看你的github中用了deepspeed对chatglm模型进行了多卡推理，我们在用多卡推理过程中，显存并未减少，即未做模型并行。想问下，你们的多卡并行是否能正常执行。多卡显存是否符合预期

liding1992 · Answer 1 · Fri Sep 08 2023 14:16:46 GMT+0800 (China Standard Time)

你好，看你的github中用了deepspeed对chatglm模型进行了多卡推理，我们在用多卡推理过程中，显存并未减少，即未做模型并行。想问下，你们的多卡并行是否能正常执行。多卡显存是否符合预期

我这边也碰到相同问题，请问是否有其他模型可以正确执行（输出正确结果，多卡推理时每张卡显存减少，多卡推理时减少推理时间）的吗？