请教贴:文本最大长度
gggdroa opened this issue · comments
gggdroa commented
1.m3e最大长度是多少呢?按照文本字算的还是token呀?
2.如果是长文本的话按短句切分并保存到embedding库后续计算效果会更加好一点吗?
yuxin.wang commented
- 按照 token 计算,最大的 token 数量为 512
- 嗯嗯,分 chunk 会好一点
gggdroa commented
- 按照 token 计算,最大的 token 数量为 512
- 嗯嗯,分 chunk 会好一点
好的谢谢
做问答检索的话,是直接计算就行?不需要提示语句吧?
场景是:用户输入一个问题,返回相关的文本段落。
yuxin.wang commented
嗯嗯,是的。直接计算就行,也不需要提示语句。
chenhao commented
请问一下,512个token大概多少个字符或者汉字呢?
yuxin.wang commented
大概就是 512 个汉字