语料如何构造
zmingshi opened this issue · comments
麻烦问下,这个语料如何构造呢?可以分享一些经验吗
百度知道爬取
尝试爬了,但是反爬被禁了。。。请问爬好的数据就直接用了吗?有做什么其他额外的数据预处理吗?不一定百度推荐的相似query就是语义相关的吧,也会有噪音吧。
@ZhuiyiTechnology 那请问下,你们这个数据量有多大呢,达到了这个效果
a bert for retrieval and generation
zmingshi opened this issue · comments
麻烦问下,这个语料如何构造呢?可以分享一些经验吗
百度知道爬取
尝试爬了,但是反爬被禁了。。。请问爬好的数据就直接用了吗?有做什么其他额外的数据预处理吗?不一定百度推荐的相似query就是语义相关的吧,也会有噪音吧。
@ZhuiyiTechnology 那请问下,你们这个数据量有多大呢,达到了这个效果