ziwang-com / zero-lora

zero零训练llm调参

Home Page:http://www.m-f.vip

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

将 LoRA 应用于更多线性图层

ziwang-com opened this issue · comments

Lightning-AI/lit-llama#350

我们当前的 LoRA 实现仅将其应用于 qv 计算.但是,最近的趋势表明,将其应用于其他地方可以提高性能。

例如,QLoRA论文报告:

如图 2 所示,在 Alpaca 上进行 LLaMA 7B 微调,我们发现最关键的 LoRA 超参数是总共使用了多少个 LoRA 适配器,并且所有线性变压器块层上的 LoRA 都需要匹配完整的微调性能

我看到其他在线从业者也将其应用于 和 .但我没有任何消息来源可以引用关于这是更好还是更糟lm_headMLP
LoRA论文的第7.1节中,作者比较了具有较高等级的较少的LoRA层与具有较小等级的更多层,并发现尽管排名较小,但更多的层获胜。
当然,这并不一定意味着在所有条件相同的情况下,LoRA 层越多越好, 但这是我想到的最好的.