ziwang-com / zero-lora

zero零训练llm调参

Home Page:http://www.m-f.vip

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

vicuna-lora斯坦福羊驼lora

ziwang-com opened this issue · comments

https://github.com/deep-diver/vicuna-lora

此存储库包含使用低秩自适应 (LoRA) 重现斯坦福羊驼结果的代码。我们提供了一个质量与可以在 Raspberry Pi 上运行的 Instruct 模型(用于研究)类似的模型,并且代码很容易扩展到 、 和 模型。text-davinci-00313b30b65b

除了在单个RTX 4090上在数小时内运行的训练代码之外,我们还发布了一个脚本,用于下载和推理基础模型和LoRA,以及生成的LoRA权重本身。为了廉价而高效地进行微调,我们使用Hugging Face的PEFT以及Tim Dettmers的bitsandbytes

在没有超参数调整的情况下, LoRA 模型产生的输出可与斯坦福羊驼模型相媲美.(请参阅下面包含的输出。进一步调整可能能够实现更好的性能;我邀请感兴趣的用户尝试一下并报告他们的结果。