text2vec中，关于token与汉字字符换算

Question

cutelitchi opened this issue 7 months ago · comments

模型中max_seq_length指的应该是模型能处理的最大token数，我想问下，这个模型中的token跟汉字字符是一个大概什么样比例的换算关系，我在一个博客上看到在text2vec上是1token约等于1.5个汉字，请问这个结论对吗？

Ming Xu (徐明) · Answer 1 · Tue Dec 26 2023 18:40:50 GMT+0800 (China Standard Time)

是bert的token编码方式，1个token是1个汉字。