FlagAI-Open / FlagAI

FlagAI (Fast LArge-scale General AI models) is a fast, easy-to-use and extensible toolkit for large-scale model.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

[Question]: 如何实现多语言tokenizer?

BaiqingL opened this issue · comments

Description

Aquila 的中英文实现是怎么做到的,是否有文献参考?例如,如果我同时tokenize了你好世界hello world,得出的数字代表是否相同?

Alternatives

No response

commented
  1. 训练使用中英文语料
  2. 你好世界和hello world 不是相同的token id。