wangyuxinwhy / uniem

unified embedding model

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

请教贴:文本最大长度

gggdroa opened this issue · comments

1.m3e最大长度是多少呢?按照文本字算的还是token呀?
2.如果是长文本的话按短句切分并保存到embedding库后续计算效果会更加好一点吗?

  1. 按照 token 计算,最大的 token 数量为 512
  2. 嗯嗯,分 chunk 会好一点
  1. 按照 token 计算,最大的 token 数量为 512
  2. 嗯嗯,分 chunk 会好一点

好的谢谢

做问答检索的话,是直接计算就行?不需要提示语句吧?
场景是:用户输入一个问题,返回相关的文本段落。

嗯嗯,是的。直接计算就行,也不需要提示语句。

请问一下,512个token大概多少个字符或者汉字呢?

大概就是 512 个汉字