Проект 1. Подготовка данных базы соискателей сайта ХедХантер для дальнейшей работы и построения модели

ссылка на данные https://drive.google.com/file/d/1rnZWTXeEfFt2F2BYUT-HBqEgecoxc5zV/view?usp=share_link

Компания HeadHunter хочет построить модель, которая бы автоматически определяла примерный уровень заработной платы, подходящей пользователю, исходя из информации, которую он указал о себе.

⬆️ к оглавлению

Постановка задачи

Подготовить данные для построения модели, что ключает в себя:

базовый анализ структуры данных
преобразование данных
разведывательный анализ
очистка данных

Метрика качества
На выходе нужно получить данные готовые для построения модели, что означает что должны быть удалены дубликаты, выбросы и данные преобразованы в вид подходящий для анализа

Что практикуем
Обработка данных для подготовки их к дальнейшей работе

Краткая информация о данных

Данные представляют собой базу из 44744 резюме соискателей на сайте ХедХантер 44744. Для каждой записи предоставлены 12 признаков: желаемая заработная плата, данные о возрасте, поле, уровне образовани, месте работы, желаемом графике, городе проживания, опыте, желаемой должности

⬆️ к оглавлению

Этапы работы над проектом

базовый анализ структуры данных

Анализ структуры данных, и определения необхоимых преобразований.

преобразование данных

Большая часть данных предоставлена в формате объектов(строк) не подходящих для анализа. Данные о зарплате преобразованы в числовой формат в рублях, используя данные конвертации на дату обновления резюме, данные о городах разделены на 4 признака (Москва, Санкт-Петербург, горо-миллионик, Другие), Опыт работы пересчитан в месяцы и приведен к числовому формату, Возраст и пол выделены в отдельные признаки, возраст приведен к числовому формату. Данные о графике и занятости приведены к типу признаков "мигалок"

разведывательный анализ Выявлены взаимосвязи между данными такие как уровень образования/место проживания/готовность к командировкам/готовность к перезду и желаемая зарплата. Обнаружены данные мешающие анализу - не верно указанные опыт работы (больше или равный возрасту), возраст
очистка данных Нулевые значения опыта заполнены медианным значением, удалены некорректные данные и дублирующиеся записи из базы

⬆️к оглавлению

Результаты:

Данные преобразованы, очищены и готовы к дальнейшей обработке.

⬆️к оглавлению

Выводы:

Выявлена зависимость уровня заработной платы от уровня образования, пола, места проживания, готовности к командировкам/переезду

⬆️к оглавлению

danilovabg / data_cleaning-analis_project1_head_hunter-

Проект 1. Подготовка данных базы соискателей сайта ХедХантер для дальнейшей работы и построения модели

Оглавление

Описание проекта

Постановка задачи

Краткая информация о данных

Этапы работы над проектом

Результаты:

Выводы:

About

Languages