ZhuiyiTechnology / t5-pegasus

中文生成式预训练模型

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Tokenizer无法判断何时终止

phenixace opened this issue · comments

T5原来用的sentence piece tokenizer确实不太适合中文,但是BertTokenizer它把句子之间的分隔"[SEP]"同时认为是结束符(句子结束应为"[EOS]"之类的)。这就导致在做生成任务时,要么直接把"[SEP]"指定为终止符,要么就得生成到最大长度,如果人为添加终止符,则需要大量语料支持。这显然不利于生成任务,我想请问有什么好的解决办法吗?

把[SEP]当作终止符有什么不好吗?就算自定义,其实也用不着大量语料吧。