关于单次最大回复值的tokens值
MW-S opened this issue · comments
有人知道量化为q4_1之后的chatglm3-6b-32k模型的单次最大回复值的tokens值是多少吗?
我看阿里云里面写的chatglm3:支持输入输出token合计是7500,其中单轮最大输出token为1500,单轮最大输入token为6000
但我实际测试时发现好像最多只能生成500-600tokens,是因为我环境的问题吗?
https://help.aliyun.com/zh/dashscope/developer-reference/api-details-8