alpaca_lora_4bit微调lora

Question

alpaca_lora_4bit微调lora

ziwang-com opened this issue a year ago · comments

www.ziwang.com commented a year ago

https://github.com/johnsmith0031/alpaca_lora_4bit

对 peft 和 gptq 中的代码进行了一些调整，用于美洲驼，并使 lora 微调成为可能 4 位基本模型.可以对 2、3 和 8 位进行相同的调整。

text_generation_webui推理性能更佳，速度提高约 40%

简单体验结果：
组大小 = 128 的 7b 模型没有操作顺序
从 13 个令牌/秒提高到 20 个令牌/秒

令人难以置信的好表现
johnsmith0031/alpaca_lora_4bit#7

在单个RTX 4090上训练LLaMA-13B-4bit（使用PyTorch 2测试版，以支持计算修订版8.9所需的CUDA 11.8）只需一分钟即可完成3个epoch：finetune.py

谢谢！RTX 4090 非常快 XD
我认为接下来要做的是减少 vram 用于训练的使用，然后我们可以在单个 30b 模型上训练 lora 4090

我做了一个比猴子补丁更好的补丁，它可以在没有 lora 或 with 的情况下工作。
https://github.com/Ph0rk0z/text-generation-webui-testing
突然间，30b 模型可用于在我的帕斯卡上进行推理。你认为有可能让它适用于GPT-J和NEO-X吗？
GPTQ 分支中已经有它们的代码。

在 4090 上训练 30b 模型需要多长时间？
我不确定这是针对时代还是整个工作，但我说 40 小时