tm4roon / survey

Survey on machine learning.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Show Your Work: Improved Reporting of Experimental Results

tm4roon opened this issue · comments

Show Your Work: Improved Reporting of Experimental Results

自然言語処理タスクにおけるモデルの評価は、事前に分割されたテストデータを用いて行われているが、手法の良し悪しの判断を行うにあたって、テストデータに対するスコアだけでは不十分であると主張している (計算環境によって結論は変わりうる、と述べている)。

ここでは、新たな評価方法 Expected validation performanceを提案している。具体的には、ハイパーパラメータの探索回数n回の条件下で、ベストなvalidation スコアを与えるパラメータ設定のモデルにおけるvalidationスコア分布Vn*の期待値を求める。

これによって、計算環境に応じて実験の結論が変わりうることを示した。

文献情報

チェックリスト

実験結果の再現性を保つためのチェックリスト。