将 LoRA 应用于更多线性图层

Question

将 LoRA 应用于更多线性图层

ziwang-com opened this issue a year ago · comments

www.ziwang.com commented a year ago

Lightning-AI/lit-llama#350

我们当前的 LoRA 实现仅将其应用于 qv 计算.但是，最近的趋势表明，将其应用于其他地方可以提高性能。

例如，QLoRA论文报告：

如图 2 所示，在 Alpaca 上进行 LLaMA 7B 微调，我们发现最关键的 LoRA 超参数是总共使用了多少个 LoRA 适配器，并且所有线性变压器块层上的 LoRA 都需要匹配完整的微调性能

我看到其他在线从业者也将其应用于和 .但我没有任何消息来源可以引用关于这是更好还是更糟lm_headMLP
在LoRA论文的第7.1节中，作者比较了具有较高等级的较少的LoRA层与具有较小等级的更多层，并发现尽管排名较小，但更多的层获胜。
当然，这并不一定意味着在所有条件相同的情况下，LoRA 层越多越好，但这是我想到的最好的.