ziwang-com / zero-lora

zero零训练llm调参

Home Page:http://www.m-f.vip

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

将大型LLM与小型LLM相结合,以加快推理速度

ziwang-com opened this issue · comments

ggerganov/llama.cpp#630
将大型LLM与小型LLM相结合,以加快推理速度 #630
打开
格尔加诺夫打开了这个问题 on Mar 31 ·27 评论
评论
@ggerganov
所有者
格尔加诺夫评论 on Mar 31
所以我在考虑以下想法。
这可能完全是假的,但我肯定会在有时间的时候调查它,所以也许其他人也会感兴趣。

大型LLM需要花费大量时间来执行令牌推理。假设每个令牌需要 500 毫秒。

小型LLM(或其他方法)可以非常快速地推断令牌。假设< 5 毫秒。

让我们假设小LLM在80-90%的情况下是正确的。

思路如下:

在为下一个令牌运行大型 LLM 推理之前,我使用小型 LLM 进行推断
我现在想以某种方式部分评估大型LLM(假设层的前10%)并获得下一个令牌的近似估计值
如果这个估计表明该代币的概率很高(即高于某个阈值) - 我们停止并直接说这是新代币。在这一点上,我们将消耗(小型LLM为5ms + 大型LLM为~50ms)
否则,我们继续评估大型LLM的其余层
在所描述的过程中,对于 10-20% 的令牌,我只会到达步骤 4,但对于其余的 - 我将采用步骤 3 中的快捷方式。
因此,我将对大型LLM进行有效的推断。

显然,最大的问题是第 2 步是否可行。
我想答案是否定的,但谁知道呢。