Tokenizer无法判断何时终止
phenixace opened this issue · comments
T5原来用的sentence piece tokenizer确实不太适合中文,但是BertTokenizer它把句子之间的分隔"[SEP]"同时认为是结束符(句子结束应为"[EOS]"之类的)。这就导致在做生成任务时,要么直接把"[SEP]"指定为终止符,要么就得生成到最大长度,如果人为添加终止符,则需要大量语料支持。这显然不利于生成任务,我想请问有什么好的解决办法吗?
把[SEP]当作终止符有什么不好吗?就算自定义,其实也用不着大量语料吧。