ziwang-com / zero-lora

zero零训练llm调参

Home Page:http://www.m-f.vip

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

alpaca_lora_4bit微调lora

ziwang-com opened this issue · comments

https://github.com/johnsmith0031/alpaca_lora_4bit

对 peft 和 gptq 中的代码进行了一些调整,用于美洲驼, 并使 lora 微调成为可能 4 位基本模型.可以对 2、3 和 8 位进行相同的调整。

text_generation_webui推理性能更佳,速度提高约 40%

简单体验结果:
组大小 = 128 的 7b 模型 没有操作顺序
从 13 个令牌/秒提高到 20 个令牌/秒

令人难以置信的好表现
johnsmith0031/alpaca_lora_4bit#7

在单个RTX 4090上训练LLaMA-13B-4bit(使用PyTorch 2测试版,以支持计算修订版8.9所需的CUDA 11.8)只需一分钟即可完成3个epoch:finetune.py

谢谢!RTX 4090 非常快 XD
我认为接下来要做的是减少 vram 用于训练的使用, 然后我们可以在单个 30b 模型上训练 lora 4090

我做了一个比猴子补丁更好的补丁,它可以在没有 lora 或 with 的情况下工作。
https://github.com/Ph0rk0z/text-generation-webui-testing
突然间,30b 模型可用于在我的帕斯卡上进行推理。你认为有可能让它适用于GPT-J和NEO-X吗?
GPTQ 分支中已经有它们的代码。

在 4090 上训练 30b 模型需要多长时间?
我不确定这是针对时代还是整个工作,但我说 40 小时