请扩充模型的中文词表

Question

请扩充模型的中文词表

sohowj opened this issue 2 months ago · comments

目前的DeepSeek V2似乎并没有扩中文词表，这样中文推理的效率还未达到最高。

vocab-coverage的统计结果（https://github.com/twang2218/vocab-coverage）：
字表《《通用规范汉字表》一级汉字》：字数：3500，完整：3168，完整率：90.51%
字表《《通用规范汉字表》二级汉字》：字数：3000，完整：251，完整率：8.37%
字表《《通用规范汉字表》三级汉字》：字数：1605，完整：5，完整率：0.31%
字表《《常用國字標準字體表》甲表(增)》：字数：1749，完整：0，完整率：0.00%
字表《《常用國字標準字體表》乙表(增)》：字数：4503，完整：0，完整率：0.00%
字表《《Unicode中日韩统一表意文字》(增)》：字数：6910，完整：1，完整率：0.01%

对比Qwen的模型：
字表《《通用规范汉字表》一级汉字》：字数：3500，完整：3500，完整率：100.00%
字表《《通用规范汉字表》二级汉字》：字数：3000，完整：3000，完整率：100.00%
字表《《通用规范汉字表》三级汉字》：字数：1605，完整：1605，完整率：100.00%
字表《《常用國字標準字體表》甲表(增)》：字数：1749，完整：633，完整率：36.19%
字表《《常用國字標準字體表》乙表(增)》：字数：4503，完整：4，完整率：0.09%
字表《《Unicode中日韩统一表意文字》(增)》：字数：6910，完整：32，完整率：0.46%

Fuli Luo · Answer 1 · Tue May 14 2024 13:09:24 GMT+0800 (China Standard Time)

当前版本的tokenizer是在语料上使用BBPE算法统计训练得到的，并没有对词表进行手动修改。我们在后续的模型迭代中会考虑手动补充一些各语言的常用词来更好的提升tokenizer的压缩率 @sohowj