上下文推理时速度会变慢，请问应该怎么解决？

Question

youranjvshi123 opened this issue 2 months ago · comments

模型转换的是q4_0的，在执行examples/cli_demo.py -m chatglm-ggml.bin -i 时，从第二轮对话开始推理速度就会变的越来越慢，请问应该怎么解决？

Wannazl · Answer 1 · Mon May 06 2024 16:50:59 GMT+0800 (China Standard Time)

so eazy ! 优化下代码就行了

youranjvshi123 · Answer 2 · Tue May 07 2024 09:06:57 GMT+0800 (China Standard Time)

so eazy ! 优化下代码就行了

大神，请问代码应该怎么优化？