danilovabg / Analisys_and_data_understanding_hh

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Проект: Анализ вакансий из HeadHunter

Оглавление

1. Описание проекта
2. Постановка задачи
3. Краткая информация о данных
4. Этапы работы над проектом
5. Результат

Описание проекта

Выгрузка данных (из базы SQL компании) для детального изучения с целью последующего построения модели Машинного Обучения для рекомендаций вакансий соискателям претендующим на позицию Data Scientist.

⬆️к оглавлению

Постановка задачи

Произвести анализ данных - Data Understanding

Для обработки данных и построения модели Машинного Обучения очень важно понимание данных. В данном проекте произведено детальное рассмотрение данных базы сайта вакансий Head Hunter

В данном проекте получены сведения о виде данных, их расположнеии, структуре, содержании, а так же обнаружены "слабые места" требующие дальнейшей работы.

⬆️к оглавлению

Краткая информация о данных

База представляет собой Реляционную Базу данных PostgreSQL, состоящию из 5 таблиц: Вакансии, Регионы, Работодатели, Сферы деятельности работодателей, Отрасли

**Общий вид базы**

**Отдельные таблицы**

ВАКАНСИИ (VACANCIES)

РЕГИОНЫ (AREAS)

РАБОТОДАТЕЛИ (EMPLOYERS)

ОТРАСЛИ (INDUSTRIES)

СФЕРЫ ДЕЯТЕЛЬНОСТИ РАБОТОДАТЕЛЕЙ (EMPLOYERS INDUSTRIES)

В данной базе находится 49197 вакансий от 23501 работодателей в 1362 регионах в 294 сферях деятельности.

⬆️к оглавлению

Этапы работы над проектом

1. Предварительный анализ данных

База данных представляет собой базу в которой предоставлено 49197 вакансий, от 23501 работодателей в 294 сферах, в 1362 населенных пунктах

2.Детальный анализ вакансий

Подведя итоги можно отметить что работодатели заинтересованы в сотрудниках 
+ на Полный рабочий день (присутственно или удаленно);
+ с оптом от 1 до 3 лет; 
+ и средней зарплатой от 71 до 110 тыс.руб.

Ожидаемос что городами с самым большим количеством вакансий оказались:

* Москва
* Санкт-Петербург
* Минск
* Новосибирск
* Алматы

3. Анализ работодателей

Компания с самым широким спектром деятельности: "Модуль", "Простые решения", "Энергия" и "Прайд" 


У компаний "Яндекс" и "Ростелеком" - самой большой охват по территориям

4. Предметный анализ

В данной Базе присутсвует большое количество вакансий так или иначе связанных с данными, их оказалось 1771, из которых мы выделили 51 вакансию подходящую начинающих Дата Сайентистов - Джуниор позиции, должности для людей без опыта и предлагаемые стажировки.

Из данных мы можем видеть, что работодатели часто не указывают зарплату, однако если возмем во внимание позиции для Дата Сайентистов в которых указана зарплата, то

в начале своей карьеры кандидат может получать в среднем 75 т.р.,

с опытом от года: 140 т.р.,

с опытом больше 3 лет уже 243 тыс. руб.

⬆️к оглавлению

Результат

Цеть проекта постигнута - произведен предметный анализ данных

⬆️к оглавлению

About


Languages

Language:Jupyter Notebook 100.0%