920232796 / bert_seq2seq

pytorch实现 Bert 做seq2seq任务,使用unilm方案,现在也可以做自动摘要,文本分类,情感分析,NER,词性标注等任务,支持t5模型,支持GPT2进行文章续写。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

文本摘要的博客和数据集

brealisty opened this issue · comments

大神,看了一下你的博客,并没有看到你有关文本摘要的文章。另外,我在网上找了一下,只找到两个数据集:LCSTS、教育培训行业抽象式自动摘要中文语料库。有一个NLPCC的数据链接应该是失效了。请问还有其他什么中文的数据集吗?

中文文本分类数据集THUCNews 可以做摘要,每个txt文件第一行就是摘要的内容。

你等会再训练哈,我代码有点问题,马上改好了,这就提交。

模型加载的有点问题,预训练参数没加载上,所以可能你现在训练的效果不是很好 重复率很高。

好了好了,麻烦你看下~多谢支持呀

http://www.blog.zhxing.online/#/readBlog/372 最新的文章,文本摘要的。

http://www.blog.zhxing.online/#/readBlog/372 最新的文章,文本摘要的。

强👍!!。max_len=256,但是数据集基本都是很长的,这样直接截断,应该对文本输出的内容影响很大吧?

目前感觉生成的还不错,因为一段内容的话,只用前半部分就差不多能提取摘要了,如果设置太长的话,可能运行速度太慢了,而且长文本可能效果也提高不了多少。