qlora，节约50%模型GPU内存

Question

qlora，节约50%模型GPU内存

ziwang-com opened this issue a year ago · comments

https://github.com/megvii-research/Sparsebit/tree/main/large_language_models/alpaca-qlora

有了alpaca-qlora支持，您可以使用单个2080ti来指导微调llama-7b / 13b。

alpaca-lora是一个伟大的项目，它允许在几个小时内在单个RTX4090上运行Instuct调谐。指令调整后，可以获得与文本达芬奇-003质量相似的指令模型。
但是，基础模型越大，获得的指令结果就越好。我们希望每个人都能享受到这个好处。因此，我们提供 alpaca-qlora，它将骨干量子化为 4 位，同时将 lora 参数保留为 fp16.
在alpaca-qlora中，将释放大约一半模型大小的GPU内存（例如，llama-7B将释放3.5GB）。当计算资源不足时，可以缓解需求;即使在有足够的计算资源的情况下，Alpaca-Qlora 也可以帮助扩展CUTOFF_LEN，这可能会改善您的 Instuct 调整结果或增加宏批次大小以减少您的训练时间。