thunlp / InfLLM

The code of our paper "InfLLM: Unveiling the Intrinsic Capacity of LLMs for Understanding Extremely Long Sequences with Training-Free Memory"

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

推理时间问题

NaivePawn opened this issue · comments

使用qwen-14b-chat模型,MultiFieldQA-zh数据集,单卡A100上跑,推理时间几乎增加了2倍

  1. 原qwen-14b-chat
    image
  2. qwen-14b-chat + infllm
    image

您好,这个问题由以下几个问题引起:

  1. InfLLM在处理超长上下文时,设计了offloading机制,因此会带来额外的显存拷贝、从cpu中加载记忆单元的时间开销(该过程可通过异步加载等手段进行优化,目前正在进行中);因此,若原始模型的训练长度、显卡显存能够支持长序列计算,直接使用原始模型即可,InfLLM是一种对full-attention的近似
  2. 仓库中给出的使用原始模型的代码中调用了flashattention,在长序列中具有非常显著的加速作用;InfLLM目前尚未完成底层算子的开发,因此在底层计算效率上也不足

InfLLM的优势在于处理超长文本,能够在处理超长文本时控制显存与计算量;我们正在从底层对InfLLM的效率进行优化,并将在完成开发后更新至该仓库中。感谢您的关注!

嗯嗯,目前大部分模型都能支持8k-32k的长度。实验目的主要是想看看使用了window attention等技术之后,整体效果会不会有所下降。非常不错的工作,期待在推理效率上有提升!