Проект 1. Подготовка данных базы соискателей сайта ХедХантер для дальнейшей работы и построения модели
ссылка на данные https://drive.google.com/file/d/1rnZWTXeEfFt2F2BYUT-HBqEgecoxc5zV/view?usp=share_link
1. Описание проекта
2. Какой кейс решаем?
3. Краткая информация о данных
4. Этапы работы над проектом
5. Результат
6. Выводы
Компания HeadHunter хочет построить модель, которая бы автоматически определяла примерный уровень заработной платы, подходящей пользователю, исходя из информации, которую он указал о себе.
⬆️ к оглавлению
Подготовить данные для построения модели, что ключает в себя:
- базовый анализ структуры данных
- преобразование данных
- разведывательный анализ
- очистка данных
Метрика качества
На выходе нужно получить данные готовые для построения модели, что означает что должны быть удалены дубликаты, выбросы и данные преобразованы в вид подходящий для анализа
Что практикуем
Обработка данных для подготовки их к дальнейшей работе
Данные представляют собой базу из 44744 резюме соискателей на сайте ХедХантер 44744. Для каждой записи предоставлены 12 признаков: желаемая заработная плата, данные о возрасте, поле, уровне образовани, месте работы, желаемом графике, городе проживания, опыте, желаемой должности
⬆️ к оглавлению
- базовый анализ структуры данных
Анализ структуры данных, и определения необхоимых преобразований.
- преобразование данных
Большая часть данных предоставлена в формате объектов(строк) не подходящих для анализа. Данные о зарплате преобразованы в числовой формат в рублях, используя данные конвертации на дату обновления резюме, данные о городах разделены на 4 признака (Москва, Санкт-Петербург, горо-миллионик, Другие), Опыт работы пересчитан в месяцы и приведен к числовому формату, Возраст и пол выделены в отдельные признаки, возраст приведен к числовому формату. Данные о графике и занятости приведены к типу признаков "мигалок"
-
разведывательный анализ Выявлены взаимосвязи между данными такие как уровень образования/место проживания/готовность к командировкам/готовность к перезду и желаемая зарплата. Обнаружены данные мешающие анализу - не верно указанные опыт работы (больше или равный возрасту), возраст
-
очистка данных Нулевые значения опыта заполнены медианным значением, удалены некорректные данные и дублирующиеся записи из базы
Данные преобразованы, очищены и готовы к дальнейшей обработке.
Выявлена зависимость уровня заработной платы от уровня образования, пола, места проживания, готовности к командировкам/переезду