纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行
Geek Repo:Geek Repo
Github PK Tool:Github PK Tool
ttaop opened this issue 3 months ago · comments
chatglm3-6b 转化的模型,如果提示词变化不大,那么多次生成结果一致。如果我想要每次生成结果随机,是否可以配置呢?目前我运行官方提供的案例fastapiexamples/web_api.py, examples/web_api_client.py,通过配置temperature,tok,top等参数都没有效果。