Show Your Work: Improved Reporting of Experimental Results
tm4roon opened this issue · comments
Takumi MARUYAMA commented
Show Your Work: Improved Reporting of Experimental Results
自然言語処理タスクにおけるモデルの評価は、事前に分割されたテストデータを用いて行われているが、手法の良し悪しの判断を行うにあたって、テストデータに対するスコアだけでは不十分であると主張している (計算環境によって結論は変わりうる、と述べている)。
ここでは、新たな評価方法 Expected validation performanceを提案している。具体的には、ハイパーパラメータの探索回数n回の条件下で、ベストなvalidation スコアを与えるパラメータ設定のモデルにおけるvalidationスコア分布Vn*の期待値を求める。
これによって、計算環境に応じて実験の結論が変わりうることを示した。
文献情報
- 著者: Jesse Dodge, Suchin Gururangan, Dallas Card, Roy Schwartz, Noah A. Smith
- リンク: https://www.aclweb.org/anthology/D19-1224
- 学会: EMNLP2019
Takumi MARUYAMA commented