Problem:多模态的部分是如何处理的?
t90tank opened this issue · comments
请教一下,qwen-vl用GPU处理图片的时候会block住continuous batching吗?
同一batch中如果同时有多条query,正在处理图片的query确实会拉低其他query的产出token速度;这个流程目前是在凑batch之后,word embedding的时候做的
RTP-LLM: Alibaba's high-performance LLM inference engine for diverse applications.
t90tank opened this issue · comments
请教一下,qwen-vl用GPU处理图片的时候会block住continuous batching吗?
同一batch中如果同时有多条query,正在处理图片的query确实会拉低其他query的产出token速度;这个流程目前是在凑batch之后,word embedding的时候做的