Large Scale Question Paraphrase Retrieval with Smoothed Deep Metric Learning

Question

Large Scale Question Paraphrase Retrieval with Smoothed Deep Metric Learning

tm4roon opened this issue 5 years ago · comments

Large Scale Question Paraphrase Retrieval with Smoothed Deep Metric Learning

Question Paraphrase Retrieval(QPR) taskにおいて、従来の損失関数Triplet loss(TR)ではノイズデータの影響を受けやすい傾向にあった。ここでは、ノイズデータの影響を小さくするため、Smoothed Deep Metric Learning(SMDL)を提案している。

モデルの概略図は以下の通りで、CNNベースのEncoderでクエリ文を低次元のベクトル空間に変換したのち、kNNを用いてクエリ文に類似した候補を抽出する。

従来の損失関数TRでは、anchor question (q^a)とpositive example(q^p)の距離を最小化しつつ、anchor question (q^a)とnegative example(q^p)の距離を最大化するように学習を行っていた。

しかし、この損失関数ではノイズデータ(e.g. false-negativeのデータ)影響を受けやすい。そこで、以下のような新しい損失関数SMDLを定義する。この損失関数により、TRによる学習に比べ性能を改善できることを示した。

文献情報

著者: Daniele Bonadiman, Anjishnu Kumar, Arpit Mittal
リンク: https://www.aclweb.org/anthology/D19-5509/
学会: Proceedings of the 5th Workshop on Noisy User-generated Text (W-NUT 2019)