feizc / MLE-LLaMA

Multi-language Enhanced LLaMA

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Question of token vocabulary

maojinyang opened this issue · comments

commented

请问针对多语言的词表支持具体做了哪些优化?为什么下图的样例中会生成原始词表中不存在的中文词汇?恳请不吝赐教。
case1

在第一点中有提到,llama天然支持中文,可以使用tokenizer进行编码测试。