Sequence-to-sequence Pre-training with Data Augmentation for Sentence Rewriting
tm4roon opened this issue · comments
Takumi MARUYAMA commented
Sequence-to-sequence Pre-training with Data Augmentation for Sentence Rewriting
文書き換えタスク(論文では、文法誤り訂正とスタイル変換)におけるデータ拡張手法を提案。生成した擬似データと教師データを同時に用いて学習させるのではなく、擬似データを学習したのちに、教師データでfine-tuningを行っている。
擬似データは逆翻訳によって生成を行うが、言語モデル(文法誤り訂正)や二値分類器(スタイル変換)を用いてフィルタリングすることで、学習に効果的なデータのみを抽出している。
文献情報
- 著者: Yi Zhang, Tao Ge, Furu Wei, Ming Zhou and Xu Sun
- リンク: https://arxiv.org/abs/1909.06002
- 学会: arXiv2019