esokolov / ml-course-hse

Машинное обучение на ФКН ВШЭ

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

2019-fall/hw/02

peinrules opened this issue · comments

В заданиях под обучающей выборке подразумевается всё без валидационной, или всё, данное нам на вход?
Казалось бы, что первое (исходя из терминологии), но делать какие-то действия для всеё выборки, а какие-то только для её обучающей части иногда кажется не очень логичным, тем более если мы хотим иметь общий набор признаков.

Под обучающей выборкой понимается та часть, которая получилась при разделении train_test_split-ом. Все признаки, естественно, нужно вычислять для обеих выборок. Если вы сможете гарантировать, что вы будете всю информацию доставать только из обучающей части (то есть не будете смотреть на таргет в тестовой выборке), то можете объединить выборки на этапе генерации признаков и работать с ними одновременно.

И вообще, главное же, чтобы все было сделано корректно, а как конкретно это реализовано не особо важно.