推理时间问题

Question

NaivePawn opened this issue 3 months ago · comments

使用qwen-14b-chat模型，MultiFieldQA-zh数据集，单卡A100上跑，推理时间几乎增加了2倍

xiaocj · Answer 1 · Mon Mar 18 2024 14:53:37 GMT+0800 (China Standard Time)

您好，这个问题由以下几个问题引起：

InfLLM在处理超长上下文时，设计了offloading机制，因此会带来额外的显存拷贝、从cpu中加载记忆单元的时间开销（该过程可通过异步加载等手段进行优化，目前正在进行中）；因此，若原始模型的训练长度、显卡显存能够支持长序列计算，直接使用原始模型即可，InfLLM是一种对full-attention的近似
仓库中给出的使用原始模型的代码中调用了flashattention，在长序列中具有非常显著的加速作用；InfLLM目前尚未完成底层算子的开发，因此在底层计算效率上也不足

InfLLM的优势在于处理超长文本，能够在处理超长文本时控制显存与计算量；我们正在从底层对InfLLM的效率进行优化，并将在完成开发后更新至该仓库中。感谢您的关注！

Qian Chen · Answer 2 · Mon Mar 18 2024 15:29:06 GMT+0800 (China Standard Time)

嗯嗯，目前大部分模型都能支持8k-32k的长度。实验目的主要是想看看使用了window attention等技术之后，整体效果会不会有所下降。非常不错的工作，期待在推理效率上有提升！