tm4roon / survey

Survey on machine learning.

Show Your Work: Improved Reporting of Experimental Results

tm4roon opened this issue 5 years ago · comments

Takumi MARUYAMA commented 5 years ago

Show Your Work: Improved Reporting of Experimental Results

自然言語処理タスクにおけるモデルの評価は、事前に分割されたテストデータを用いて行われているが、手法の良し悪しの判断を行うにあたって、テストデータに対するスコアだけでは不十分であると主張している (計算環境によって結論は変わりうる、と述べている)。

ここでは、新たな評価方法 Expected validation performanceを提案している。具体的には、ハイパーパラメータの探索回数n回の条件下で、ベストなvalidation スコアを与えるパラメータ設定のモデルにおけるvalidationスコア分布Vn*の期待値を求める。

これによって、計算環境に応じて実験の結論が変わりうることを示した。

文献情報

著者: Jesse Dodge, Suchin Gururangan, Dallas Card, Roy Schwartz, Noah A. Smith
リンク: https://www.aclweb.org/anthology/D19-1224
学会: EMNLP2019

Takumi MARUYAMA commented 5 years ago

チェックリスト

実験結果の再現性を保つためのチェックリスト。

Takumi MARUYAMA commented 5 years ago

解説記事

「期待検証性能（expected validation performance）」をもとにしたパラメータ探索の検証

Takumi MARUYAMA commented 5 years ago

コード