ZhuiyiTechnology / simbert

a bert for retrieval and generation

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

语料如何构造

zmingshi opened this issue · comments

麻烦问下,这个语料如何构造呢?可以分享一些经验吗

百度知道爬取

commented

尝试爬了,但是反爬被禁了。。。请问爬好的数据就直接用了吗?有做什么其他额外的数据预处理吗?不一定百度推荐的相似query就是语义相关的吧,也会有噪音吧。

@ZhuiyiTechnology 那请问下,你们这个数据量有多大呢,达到了这个效果