Large Scale Question Paraphrase Retrieval with Smoothed Deep Metric Learning
tm4roon opened this issue · comments
Takumi MARUYAMA commented
Large Scale Question Paraphrase Retrieval with Smoothed Deep Metric Learning
Question Paraphrase Retrieval(QPR) taskにおいて、従来の損失関数Triplet loss(TR)ではノイズデータの影響を受けやすい傾向にあった。ここでは、ノイズデータの影響を小さくするため、Smoothed Deep Metric Learning(SMDL)を提案している。
モデルの概略図は以下の通りで、CNNベースのEncoderでクエリ文を低次元のベクトル空間に変換したのち、kNNを用いてクエリ文に類似した候補を抽出する。
従来の損失関数TRでは、anchor question (q^a)とpositive example(q^p)の距離を最小化しつつ、anchor question (q^a)とnegative example(q^p)の距離を最大化するように学習を行っていた。
しかし、この損失関数ではノイズデータ(e.g. false-negativeのデータ)影響を受けやすい。そこで、以下のような新しい損失関数SMDLを定義する。この損失関数により、TRによる学習に比べ性能を改善できることを示した。
文献情報
- 著者: Daniele Bonadiman, Anjishnu Kumar, Arpit Mittal
- リンク: https://www.aclweb.org/anthology/D19-5509/
- 学会: Proceedings of the 5th Workshop on Noisy User-generated Text (W-NUT 2019)