AWQ：用于LLM压缩和加速的激活感知重量量化

Question

AWQ：用于LLM压缩和加速的激活感知重量量化

ziwang-com opened this issue a year ago · comments

www.ziwang.com commented a year ago

https://github.com/mit-han-lab/llm-awq

AWQ：用于LLM压缩和加速的激活感知重量量化[论文]
适用于LLM的高效准确的低比特权重量化（INT3 / 4），支持指令调谐模型和多模态LM。

overview

当前版本支持：

AWQ 搜索以实现准确的量化。
用于LLM的预先计算的AWQ模型库（LLaMA，OPT，Vicuna，LLaVA;加载以生成量化权重）。
PyTorch 中的内存效率高 4 位线性。
高效的 CUDA 内核实现，可实现快速推理（支持上下文和解码阶段）。
指令调谐模型（Vicuna）和多模态 LM （LLaVA）的 4 位推理示例。