serp-ya / dvp-4-3v2

EDA practice v1

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Вы получили основные навыки обработки данных, теперь пора испытать их на практике. Сейчас вам предстоит заняться задачей классификации.

Представлен датасет центра приюта животных, и вашей задачей будет обучить модель таким образом, чтобы по определенным признакам была возможность максимально уверенно предсказать метки 'Adoption' и 'Transfer' (столбец “outcome_type”).

Здесь вы вольны делать что угодно. Я хочу видеть от вас:

  1. Проверка наличия/обработка пропусков
  2. Проверьте взаимосвязи между признаками
  3. Попробуйте создать свои признаки
  4. Удалите лишние
  5. Обратите внимание на текстовые столбцы. Подумайте, что можно извлечь полезного оттуда
  6. Использование профайлера вам поможет.
  7. Не забывайте, что у вас есть PCA (Метод главных компонент). Он может пригодиться.

Вспомните о всем, что я говорил на предыдущих занятиях. Не все будет пригодится, но в жизни вам никто не будет говорить, что использовать :)

Хорошим классификатором для этой задачи будет "Случайный лес" (https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html)

Понимать суть работы "леса" не обязательно на данном этапе, но качество предсказаний будет выше, чем с линейным классификатором. (если желаете, вот гайд https://adataanalyst.com/scikit-learn/linear-classification-method/)

Желаю успеха :)

About

EDA practice v1


Languages

Language:Jupyter Notebook 100.0%