请扩充模型的中文词表
sohowj opened this issue · comments
目前的DeepSeek V2似乎并没有扩中文词表,这样中文推理的效率还未达到最高。
vocab-coverage的统计结果(https://github.com/twang2218/vocab-coverage):
字表 《《通用规范汉字表》一级汉字》:字数:3500,完整:3168,完整率:90.51%
字表 《《通用规范汉字表》二级汉字》:字数:3000,完整:251,完整率:8.37%
字表 《《通用规范汉字表》三级汉字》:字数:1605,完整:5,完整率:0.31%
字表 《《常用國字標準字體表》甲表(增)》:字数:1749,完整:0,完整率:0.00%
字表 《《常用國字標準字體表》乙表(增)》:字数:4503,完整:0,完整率:0.00%
字表 《《Unicode中日韩统一表意文字》(增)》:字数:6910,完整:1,完整率:0.01%
对比Qwen的模型:
字表 《《通用规范汉字表》一级汉字》:字数:3500,完整:3500,完整率:100.00%
字表 《《通用规范汉字表》二级汉字》:字数:3000,完整:3000,完整率:100.00%
字表 《《通用规范汉字表》三级汉字》:字数:1605,完整:1605,完整率:100.00%
字表 《《常用國字標準字體表》甲表(增)》:字数:1749,完整:633,完整率:36.19%
字表 《《常用國字標準字體表》乙表(增)》:字数:4503,完整:4,完整率:0.09%
字表 《《Unicode中日韩统一表意文字》(增)》:字数:6910,完整:32,完整率:0.46%