如果要使用英文数据集需要更改什么

Question

kuroko730 opened this issue 3 years ago · comments

感谢作者带来如此优秀的项目！
我现在想用您的项目中的三元组关系抽取来处理一些英文的数据集。
在自己看来，除了要使用Bert的英文预训练模型之外，请问是否还需要在tokenizer.py 上做修改呢？

zhaohu xing · Answer 1 · Sun Jan 31 2021 19:32:44 GMT+0800 (China Standard Time)

我觉得tokenizer不需要修改，不过我也没尝试过英文的，不确定，你可以试一下～我觉得是没问题的。

kuroko730 · Answer 2 · Sun Jan 31 2021 19:46:49 GMT+0800 (China Standard Time)

谢谢回复！
我先不改tokenizer，把中文词表换成英文词表试试。