igorastashov / trees-models-classifier

Прогнозирование удовлетворенности пассажиров авиакомпании на основе данных о полетах.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Прогнозирование удовлетворенности пассажиров авиакомпании на основе данных о полетах

Асташов И.В., 2024.

Проект выполнен в рамках курса «Машинное обучение» магистерской программы НИУ ВШЭ «Машинное обучение и высоконагруженные системы».

Цель и задачи

Цель: Создать модель, использующую решающие деревья, для предсказания уровня удовлетворенности клиентов полетами.

Задачи:

  1. Провести разведочный анализ данных и выполнить их предобработку;
  2. Построить модель решающих деревьев для бинарной классификации;
  3. Оценить важность признаков, визуализировать дерево, провести прунинг;
  4. Обучить случайный лес и провести калибровку его вероятностей;
  5. Оценить разброс и смещение моделей и сравнить их;
  6. Подобрать оптимальные гиперпараметры для случайного леса;
  7. Проанализировать важность признаков с использованием SHAP и LIME;
  8. Провести поиск оптимальных гиперпараметров для случайного леса с использованием Optuna.

Разведочный анализ данных и предобработка

  • Оценка распределений признаков;
  • Заполнение пропусков;
  • Удаление выбросов;
  • Логарифмирование признаков;
  • Кодирование признаков.

Построение моделей решающих деревьев

  • Оценка важности признаков;
  • Визуализация дерева принятия решений;
  • Построение разделяющей поверности;
  • Процесс прунинга дерева;
  • Обучение случайного леса и калибровка его вероятностей используя изотоническую и логистическую регрессию;
  • Оценка разброса и смещений моделей;
  • Подбор оптимальных гиперпараметров с помощью GridSearchCV;
  • Интерпретация важности признаков с использованием SHAP и LIME;
  • Поиск оптимальных гиперпараметров с использованием Optuna.

Шаги выполнены с целью улучшения качества модели и ее интерпретируемости.

About

Прогнозирование удовлетворенности пассажиров авиакомпании на основе данных о полетах.

License:MIT License


Languages

Language:Jupyter Notebook 100.0%