将大型LLM与小型LLM相结合，以加快推理速度

Question

将大型LLM与小型LLM相结合，以加快推理速度

ziwang-com opened this issue a year ago · comments

ggerganov/llama.cpp#630
将大型LLM与小型LLM相结合，以加快推理速度 #630
打开
格尔加诺夫打开了这个问题 on Mar 31 ·27 评论
评论
@ggerganov
所有者
格尔加诺夫评论 on Mar 31
所以我在考虑以下想法。
这可能完全是假的，但我肯定会在有时间的时候调查它，所以也许其他人也会感兴趣。

大型LLM需要花费大量时间来执行令牌推理。假设每个令牌需要 500 毫秒。

小型LLM（或其他方法）可以非常快速地推断令牌。假设< 5 毫秒。

让我们假设小LLM在80-90%的情况下是正确的。

思路如下：

在为下一个令牌运行大型 LLM 推理之前，我使用小型 LLM 进行推断
我现在想以某种方式部分评估大型LLM（假设层的前10%）并获得下一个令牌的近似估计值
如果这个估计表明该代币的概率很高（即高于某个阈值） - 我们停止并直接说这是新代币。在这一点上，我们将消耗（小型LLM为5ms + 大型LLM为~50ms）
否则，我们继续评估大型LLM的其余层
在所描述的过程中，对于 10-20% 的令牌，我只会到达步骤 4，但对于其余的 - 我将采用步骤 3 中的快捷方式。
因此，我将对大型LLM进行有效的推断。

显然，最大的问题是第 2 步是否可行。
我想答案是否定的，但谁知道呢。