4位QLora的即将到来

Question

4位QLora的即将到来

ziwang-com opened this issue a year ago · comments

www.ziwang.com commented a year ago

QLoRA：在单个 GPU 上微调 65B LLM
https://github.com/artidoro/qlora

oobabooga/text-generation-webui#2253

huggingface/transformers#23479

想知道它会更快还是更稳定。由于它是通过变压器进入的，因此应该更容易支持。希望它不仅限于美洲驼。

不仅如此，它还应该在现有的 8 位选项之外添加一个备受期待的新选项，用于使用新的 FP4 格式进行动态 4 位量化，据称相对于 16 位几乎是无损的。load_in_4bit

如果这是真的，这太疯狂了，我们将不再需要 GPTQ

此 PR 将 4 位 QLoRA 引入变压器。主要变化是针对位沙字节配置。此外，我们对 LLaMA 实现添加了一项更改，其中存在一个错误，即如果层规范为 32 位，其余的为 bf16，则数据类型可能。

有关QLoRA的更多信息，请从我们的摘要中获取：
我们开发了 QLoRA 调谐，这是一种通过将梯度通过冻结的 4 位基本模型反向传播到低秩适配器（LoRA）中进行微调的方法。通过 QLoRA 调优，我们可以在 24/48GB GPU 上微调 30B/65B 参数模型，同时保留常规的 16 位完整微调运行时和任务性能。我们通过新方法的组合来实现内存效率和量化精度：嵌套量化，将每个参数的平均内存占用从 4.5 位减少到 4.1 位，分页优化器管理梯度检查点内存峰值，以及新的数据类型 4 位 NormalFloat （NF4），它在理论上和经验上是正态分布权重的最佳信息。为了证明 QLoRA 调优的有效性和易用性，我们对 1，000 多个模型进行了微调，以创建跨数据集（FLAN、Alpaca、Chip2、SuperNatural Instructions、Chip2、AnthropicHH）、模型类型（LLaMA、T5）和模型规模（125M 到 65B）的性能指令的详细剖析。我们的论文即将对结果进行讨论。