ziwang-com / zero-lora

zero零训练llm调参

Home Page:http://www.m-f.vip

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

4位QLora的即将到来

ziwang-com opened this issue · comments

QLoRA:在单个 GPU 上微调 65B LLM
https://github.com/artidoro/qlora

oobabooga/text-generation-webui#2253

huggingface/transformers#23479

想知道它会更快还是更稳定。由于它是通过变压器进入的,因此应该更容易支持。希望它不仅限于美洲驼。

不仅如此,它还应该在现有的 8 位选项之外添加一个备受期待的新选项,用于使用新的 FP4 格式进行动态 4 位量化,据称相对于 16 位几乎是无损的。load_in_4bit

如果这是真的,这太疯狂了,我们将不再需要 GPTQ

此 PR 将 4 位 QLoRA 引入变压器。主要变化是针对位沙字节配置。此外,我们对 LLaMA 实现添加了一项更改,其中存在一个错误,即如果层规范为 32 位,其余的为 bf16,则数据类型可能。

有关QLoRA的更多信息,请从我们的摘要中获取:
我们开发了 QLoRA 调谐,这是一种通过将梯度通过冻结的 4 位基本模型反向传播到低秩适配器 (LoRA) 中进行微调的方法。通过 QLoRA 调优,我们可以在 24/48GB GPU 上微调 30B/65B 参数模型,同时保留常规的 16 位完整微调运行时和任务性能。我们通过新方法的组合来实现内存效率和量化精度:嵌套量化,将每个参数的平均内存占用从 4.5 位减少到 4.1 位,分页优化器管理梯度检查点内存峰值,以及新的数据类型 4 位 NormalFloat (NF4),它在理论上和经验上是正态分布权重的最佳信息。为了证明 QLoRA 调优的有效性和易用性,我们对 1,000 多个模型进行了微调,以创建跨数据集(FLAN、Alpaca、Chip2、SuperNatural Instructions、Chip2、AnthropicHH)、模型类型(LLaMA、T5)和模型规模(125M 到 65B)的性能指令的详细剖析。我们的论文即将对结果进行讨论。