文本摘要的博客和数据集
brealisty opened this issue · comments
大神,看了一下你的博客,并没有看到你有关文本摘要的文章。另外,我在网上找了一下,只找到两个数据集:LCSTS、教育培训行业抽象式自动摘要中文语料库。有一个NLPCC的数据链接应该是失效了。请问还有其他什么中文的数据集吗?
中文文本分类数据集THUCNews 可以做摘要,每个txt文件第一行就是摘要的内容。
你等会再训练哈,我代码有点问题,马上改好了,这就提交。
模型加载的有点问题,预训练参数没加载上,所以可能你现在训练的效果不是很好 重复率很高。
好了好了,麻烦你看下~多谢支持呀
http://www.blog.zhxing.online/#/readBlog/372 最新的文章,文本摘要的。
http://www.blog.zhxing.online/#/readBlog/372 最新的文章,文本摘要的。
强👍!!。max_len=256,但是数据集基本都是很长的,这样直接截断,应该对文本输出的内容影响很大吧?
目前感觉生成的还不错,因为一段内容的话,只用前半部分就差不多能提取摘要了,如果设置太长的话,可能运行速度太慢了,而且长文本可能效果也提高不了多少。