danilovabg / data_cleaning-analis_project1_head_hunter-

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Проект 1. Подготовка данных базы соискателей сайта ХедХантер для дальнейшей работы и построения модели

ссылка на данные https://drive.google.com/file/d/1rnZWTXeEfFt2F2BYUT-HBqEgecoxc5zV/view?usp=share_link

Оглавление

1. Описание проекта
2. Какой кейс решаем?
3. Краткая информация о данных
4. Этапы работы над проектом
5. Результат
6. Выводы

Описание проекта

Компания HeadHunter хочет построить модель, которая бы автоматически определяла примерный уровень заработной платы, подходящей пользователю, исходя из информации, которую он указал о себе.

⬆️ к оглавлению

Постановка задачи

Подготовить данные для построения модели, что ключает в себя:

  1. базовый анализ структуры данных
  2. преобразование данных
  3. разведывательный анализ
  4. очистка данных

Метрика качества
На выходе нужно получить данные готовые для построения модели, что означает что должны быть удалены дубликаты, выбросы и данные преобразованы в вид подходящий для анализа

Что практикуем
Обработка данных для подготовки их к дальнейшей работе

Краткая информация о данных

Данные представляют собой базу из 44744 резюме соискателей на сайте ХедХантер 44744. Для каждой записи предоставлены 12 признаков: желаемая заработная плата, данные о возрасте, поле, уровне образовани, месте работы, желаемом графике, городе проживания, опыте, желаемой должности

⬆️ к оглавлению

Этапы работы над проектом

  1. базовый анализ структуры данных

Анализ структуры данных, и определения необхоимых преобразований.

  1. преобразование данных

Большая часть данных предоставлена в формате объектов(строк) не подходящих для анализа. Данные о зарплате преобразованы в числовой формат в рублях, используя данные конвертации на дату обновления резюме, данные о городах разделены на 4 признака (Москва, Санкт-Петербург, горо-миллионик, Другие), Опыт работы пересчитан в месяцы и приведен к числовому формату, Возраст и пол выделены в отдельные признаки, возраст приведен к числовому формату. Данные о графике и занятости приведены к типу признаков "мигалок"

  1. разведывательный анализ Выявлены взаимосвязи между данными такие как уровень образования/место проживания/готовность к командировкам/готовность к перезду и желаемая зарплата. Обнаружены данные мешающие анализу - не верно указанные опыт работы (больше или равный возрасту), возраст

  2. очистка данных Нулевые значения опыта заполнены медианным значением, удалены некорректные данные и дублирующиеся записи из базы

⬆️к оглавлению

Результаты:

Данные преобразованы, очищены и готовы к дальнейшей обработке.

⬆️к оглавлению

Выводы:

Выявлена зависимость уровня заработной платы от уровня образования, пола, места проживания, готовности к командировкам/переезду

⬆️к оглавлению

About


Languages

Language:Jupyter Notebook 100.0%