shibing624 / text2vec

text2vec, text to vector. 文本向量表征工具,把文本转化为向量矩阵,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT等文本表征、文本相似度计算模型,开箱即用。

Home Page:https://pypi.org/project/text2vec/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

text2vec中,关于token与汉字字符换算

cutelitchi opened this issue · comments

模型中max_seq_length指的应该是模型能处理的最大token数,我想问下,这个模型中的token跟汉字字符是一个大概什么样比例的换算关系,我在一个博客上看到在text2vec上是1token约等于1.5个汉字,请问这个结论对吗?

是bert的token编码方式,1个token是1个汉字。