将 LoRA 应用于更多线性图层
ziwang-com opened this issue · comments
我们当前的 LoRA 实现仅将其应用于 qv 计算.但是,最近的趋势表明,将其应用于其他地方可以提高性能。
例如,QLoRA论文报告:
如图 2 所示,在 Alpaca 上进行 LLaMA 7B 微调,我们发现最关键的 LoRA 超参数是总共使用了多少个 LoRA 适配器,并且所有线性变压器块层上的 LoRA 都需要匹配完整的微调性能
我看到其他在线从业者也将其应用于 和 .但我没有任何消息来源可以引用关于这是更好还是更糟lm_headMLP
在LoRA论文的第7.1节中,作者比较了具有较高等级的较少的LoRA层与具有较小等级的更多层,并发现尽管排名较小,但更多的层获胜。
当然,这并不一定意味着在所有条件相同的情况下,LoRA 层越多越好, 但这是我想到的最好的.