Meta-Llama-3-70B-Instruct
longcheng183 opened this issue · comments
是用的int4模型吗? 这个模型int4精度好像不太够,可以试试int4g (int4分组量化)
这个模型可以不用转模型直接读取(类似下面的命令)
./main -p /yourpath/meta-llama/Meta-Llama-3-70B-Instruct/ --dtype int4g
类似这样,dtype那里可以分别试试int8, int4g, int4g256,我本地测试都是能正常输出的
感谢博主,已解决,这个模型采用了int4分组量化后可用
博主我再像您请教一个问题,./main -p fastllm_int4g_70B.flm 用这个命令跑,问一个问题之后他会一直回复,除非用ctrl c终止程序,如何才能达成持续性的连续问问题
博主我再像您请教一个问题,./main -p fastllm_int4g_70B.flm 用这个命令跑,问一个问题之后他会一直回复,除非用ctrl c终止程序,如何才能达成持续性的连续问问题
这个模型运行的时候好像得指定 --eos_token "<|eot_id|>",因为它模型里面定义的eos_token不是这个(官方代码里面也这么指定了)
博主我再像您请教一个问题,./main -p fastllm_int4g_70B.flm 用这个命令跑,问一个问题之后他会一直回复,除非用ctrl c终止程序,如何才能达成持续性的连续问问题
这个模型运行的时候好像得指定 --eos_token "<|eot_id|>",因为它模型里面定义的eos_token不是这个(官方代码里面也这么指定了)
感谢博主,加了这个命令后问题已解决,非常感谢您