920232796 / bert_seq2seq

pytorch实现 Bert 做seq2seq任务,使用unilm方案,现在也可以做自动摘要,文本分类,情感分析,NER,词性标注等任务,支持t5模型,支持GPT2进行文章续写。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

如果要使用英文数据集需要更改什么

kuroko730 opened this issue · comments

感谢作者带来如此优秀的项目!
我现在想用您的项目中的三元组关系抽取来处理一些英文的数据集。
在自己看来,除了要使用Bert的英文预训练模型之外,请问是否还需要在tokenizer.py 上做修改呢?

我觉得tokenizer不需要修改,不过我也没尝试过英文的,不确定,你可以试一下~我觉得是没问题的。

谢谢回复!
我先不改tokenizer,把中文词表换成英文词表试试。