AWQ:用于LLM压缩和加速的激活感知重量量化
ziwang-com opened this issue · comments
www.ziwang.com commented
https://github.com/mit-han-lab/llm-awq
AWQ:用于LLM压缩和加速的激活感知重量量化[论文]
适用于LLM的高效准确的低比特权重量化(INT3 / 4),支持指令调谐模型和多模态LM。
overview
当前版本支持:
AWQ 搜索以实现准确的量化。
用于LLM的预先计算的AWQ模型库(LLaMA,OPT,Vicuna,LLaVA;加载以生成量化权重)。
PyTorch 中的内存效率高 4 位线性。
高效的 CUDA 内核实现,可实现快速推理(支持上下文和解码阶段)。
指令调谐模型 (Vicuna) 和多模态 LM (LLaVA) 的 4 位推理示例。