ztxz16 / fastllm

纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

benchmark 测试的时候会卡住,如何解决呢?

2213601279 opened this issue · comments

./benchmark -p /opt/Convert/flm/qwen-14b-chart-int4.flm -f ../example/benchmark/prompts/beijing.txt -b 1
Load (323 / 323)
Warmup...
finish.
AVX: ON
AVX2: ON
AARCH64: OFF
Neon FP16: OFF
Neon DOT: OFF

卡住可能是qwen-14B-int4生成的结果停不下来, 可以考虑加入参数“-l 512” 限制输出长度为512 tokens。