Yyalexx / Predict-a-biological-response

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Predict-a-biological-response

Описание проекта

Оптимизация гиперпараметров моделей различными способами: GridSeachCV, RandomizedSearchCV, Hyperopt, Optuna.
Практика основана на датасете соревнования Kaggle Predicting a Biological Response (Прогнозирование биологического ответа).

Какой кейс решаем?

Необходимо предсказать биологический ответ молекул (столбец 'Activity') по их химическому составу (столбцы D1-D1776).

Условия задания:

Предварительная обработка не требуется, данные уже закодированы и нормализованы. В качестве метрики используется F1-score. Необходимо обучить две модели: логистическую регрессию и случайный лес. Далее нужно сделать подбор гиперпараметров с помощью базовых и продвинутых методов оптимизации. Важно использовать все четыре метода (GridSeachCV, RandomizedSearchCV, Hyperopt, Optuna) хотя бы по разу, максимальное количество итераций не должно превышать 50.

Краткая информация о данных

Подготовленный датасет

Данные представлены в формате CSV. Каждая строка представляет молекулу.

Первый столбец Activity содержит экспериментальные данные, описывающие фактический биологический ответ [0, 1] Остальные столбцы D1-D1776 представляют собой молекулярные дескрипторы — это вычисляемые свойства, которые могут фиксировать некоторые характеристики молекулы, например размер, форму или состав элементов

Этапы работы над проектом

Последовательно реализован подбор гиперпараметров для моделей логистической регрессии и случайного леса четырьмя способами:

GridGridSeachCV RandomizedSearchCV Hyperopt Optuna

Результаты

Реализована оптимизация гиперпараметров 4-мя способами для двух моделей. Блоки кода можно использовать в качестве готовых шаблонов при построении ML-моделей.

About


Languages

Language:Jupyter Notebook 100.0%