Tokenizer无法判断何时终止

Question

Tokenizer无法判断何时终止

phenixace opened this issue 2 years ago · comments

T5原来用的sentence piece tokenizer确实不太适合中文，但是BertTokenizer它把句子之间的分隔"[SEP]"同时认为是结束符(句子结束应为"[EOS]"之类的)。这就导致在做生成任务时，要么直接把"[SEP]"指定为终止符，要么就得生成到最大长度，如果人为添加终止符，则需要大量语料支持。这显然不利于生成任务，我想请问有什么好的解决办法吗？

苏剑林(Jianlin Su) · Answer 1 · Fri Feb 18 2022 14:50:02 GMT+0800 (China Standard Time)

把[SEP]当作终止符有什么不好吗？就算自定义，其实也用不着大量语料吧。