lo1ol / cv_parser

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Парсер веб-сайтов для кадрового агентства


ОПИСАНИЕ:

Парсер для веб-сайтов, получающий следующую информацию:

  • start_time: время начала работы модуля

  • main_link: сайт, который необходимо распарсить

  • company_name: название компании

  • company_links: список, который содержит ссылки на следующие страницы:

    1. Контакты (contacts)
    2. О компании (about)
    3. Вакансии (vacancies)
    4. Наша команда (staff)
  • about: краткая информация о компании

  • vacancies: список, который содержит информацию о вакансиях в компании:

    1. Название вакансии (vacancy)
    2. Информация о вакансии или требования (requirements)
    3. Опыт работы (experience)
    4. Ссылка на вакансию (link)
    5. Дата публикации вакансии (date)
  • team: список, который содержит информацию о персонале компании:

    1. Полное имя сотрудника (name)
    2. Информация о сотруднике, должность (info)
    3. Ссылка на его персональную страницу (link)
    4. Ссылка на его фото (photo)
  • emails: почтовые адреса с описанием

  • phones: телефоны с описанием

  • social_networks: социальные сети на странице со ссылками

  • messengers: мессенджеры на странице со ссылками

  • requisites: юридические реквизиты организации

  • address: список, содержащий все адреса организации

ИСПОЛЬЗОВАНИЕ:

python cv_parser.py <yourdomain> [-p|--path <example/example1.json>] [-t|--test]

-p: позволяет сохранить файл с результатом парсера в папку, указанную в аргументе

-t: режим разработчика (не рекомендуется использовать!)

Примеры JSON-файлов с выгруженными результатами находятся в папке examples:

python cv_parser.py aeroem.ru -p examples/example1.json
python cv_parser.py 2050.digital -p examples/example2.json
python cv_parser.py digitalaround.ru -p examples/example3.json

ЧТО НЕОБХОДИМО ДОДЕЛАТЬ:

  • Работа с вложенными структурами (например, страница "Контакты" имеет ссылку на подконтакт "Филиал в Новосибирске")
  • Нахождение контактов сотрудников компании

About


Languages

Language:Python 100.0%