alibaba / rtp-llm

RTP-LLM: Alibaba's high-performance LLM inference engine for diverse applications.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Problem:多模态的部分是如何处理的?

t90tank opened this issue · comments

请教一下,qwen-vl用GPU处理图片的时候会block住continuous batching吗?

同一batch中如果同时有多条query,正在处理图片的query确实会拉低其他query的产出token速度;这个流程目前是在凑batch之后,word embedding的时候做的