分别使用TextRank、BiLSTM和UniLM实现中文文章标题自动生成
-
TG_BiLSTM: seq2seq模型标题生成,encoder与decoder主要使用了双层双向LSTM
Corpus: 新闻语料json版 (news2016zh)
-
TG_TextRank: 使用基本的TextRank模型抽取文章中的关键句作为标题
-
TG_TextRank+W2V: TextRank算法在计算句子之间的相似度作为边的权重时,将词共现频率改为使用Word2Vec计算相似度
-
TG_UniLM: 使用UniLM语言模型进行标题生成
Corpus: THUCNews数据集
- 测试数据集个人构造3344条新闻及标题
- 使用bert-as-service对原标题和生成的标题进行编码,然后计算平均余弦相似度
- 测试结果:
sim_bilstm: 93.53% sim_textrank: 93.67% sim_trw2v: 93.93% sim_unilm: 95.65%