ziwang-com / zero-lora

zero零训练llm调参

Home Page:http://www.m-f.vip

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

AWQ:用于LLM压缩和加速的激活感知重量量化

ziwang-com opened this issue · comments

https://github.com/mit-han-lab/llm-awq

AWQ:用于LLM压缩和加速的激活感知重量量化[论文]
适用于LLM的高效准确的低比特权重量化(INT3 / 4),支持指令调谐模型和多模态LM。

overview

当前版本支持:

AWQ 搜索以实现准确的量化。
用于LLM的预先计算的AWQ模型库(LLaMA,OPT,Vicuna,LLaVA;加载以生成量化权重)。
PyTorch 中的内存效率高 4 位线性。
高效的 CUDA 内核实现,可实现快速推理(支持上下文和解码阶段)。
指令调谐模型 (Vicuna) 和多模态 LM (LLaVA) 的 4 位推理示例。

image