tm4roon / survey

Survey on machine learning.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Sequence-to-sequence Pre-training with Data Augmentation for Sentence Rewriting

tm4roon opened this issue · comments

Sequence-to-sequence Pre-training with Data Augmentation for Sentence Rewriting

文書き換えタスク(論文では、文法誤り訂正とスタイル変換)におけるデータ拡張手法を提案。生成した擬似データと教師データを同時に用いて学習させるのではなく、擬似データを学習したのちに、教師データでfine-tuningを行っている。

擬似データは逆翻訳によって生成を行うが、言語モデル(文法誤り訂正)や二値分類器(スタイル変換)を用いてフィルタリングすることで、学習に効果的なデータのみを抽出している。

文献情報