Tlntin / Qwen-TensorRT-LLM

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Qwen-14B-Chat-Int4运行后预测结果不对

takemars opened this issue · comments

在A100 80G上执行,按照要求,安装了相关的包后,按照“运行指南(int4-gptq篇)”执行第一步和第三步后,查看日志为:
image,生成的文件如图:
image
执行第三步后,正常生成的文件是这几个吗?
最后执行python3 run.py --tokenizer_dir=Qwen-14B-Chat-Int4,发现预测结果不对,本次预测结果为:
image
,请问如何解决这个问题?

补充执行第三步的指令为:python build.py --use_weight_only
--weight_only_precision int4_gptq
--per_group
--hf_model_dir Qwen-14B-Chat-Int4
--quant_ckpt_path Qwen-14B-Chat-Int4

可以升级一下transformers版本试试。
顺便问问你用的哪个版本,是当前项目的main分支吗

image
用的是当前项目的main分支

升级transformers版本后就可以了,该问题是optimum和transformers版本不匹配导致的,
两者都用最新版就可以解决了。