upura / python-kaggle-start-book

『PythonではじめるKaggleスタートブック』のサンプルコード・脚注・正誤表

Home Page:https://www.kspub.co.jp/book/detail/5190067.html

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

P104のGroupKFoldについて

upura opened this issue · comments

#31 にお寄せいただいた質問を移行しました。

P104では、ドライバーの画像から運転態度を予測する問題が論じられ、データセット内にグループが存在する場合、同一のドライバーが分割されないよう気を付ける必要があると書かれていました。
しかし、もし同一のドライバーが分割されないようにGroupKFoldを行うと、同一のドライバーは必ずtrainかvalのどちらのみに存在し、学習すること自体ができなくなりませんか?

@conan1024hao
「同一のドライバーは必ずtrainかvalのどちらのみに存在」という認識は正しいです。その上で、個々人のドライバーの癖に依存しない、汎用的な運転態度の傾向が学習されると期待されます。