DmitrySmolov / bs4_parser_pep

bs4_parser_pep is a Python-based tool for efficiently parsing and compiling Python documentation and PEPs from the official Python website, featuring cached sessions and multiple display options.

Repository from Github https://github.comDmitrySmolov/bs4_parser_pepRepository from Github https://github.comDmitrySmolov/bs4_parser_pep

Проект парсинга BS4 Parser PEP

BS4 Parser PEP это парсер, удобно компилирующий информацию с официального сайта документации языка программирования Python: список ссылок на статьи по нововведениям различных версий Python, список ссылок на документацию по различным версиям языка, скачивание документации последней версии языка в формате PDF, сводные данные по PEP (Python Enhancement Proposals) языка Python.

Возможности приложения

  • Парсинг данных с официального сайта документации Python
  • Различные способы отображения данных
  • Применение кешированных сессий

Технологии

Python BeautifulSoup4

Установка

Клонируйте репозиторий на ваш компьютер, в локальном репозитории создайте и активируйте виртуальное окружение, обновите менеджер пакетов pip и установите зависимости из файла requirements.txt.

git clone <адрес репозитория>
python -m venv venv
python -m pip install --upgrade pip
pip install -r requirements.txt

Использование

Из директории src в командной строке запустите модуль main с указанием режима работы парсера первым обязательным позиционным аргументом.
Доступны следующие режимы:

  • whats_new (список статей по нововведениям)
  • latest_versions (список документаций)
  • download (скачивание документации)
  • pep (отчёт по статусам PEP)
    Парсинг производится из кешированной сессии. Для обновления кешированной сессии доступен опциональный аргумент -c или --clear-cache.
    Для режимов whats_new и latest_versions также доступен выбор вывода нужной информации:
  • по умолчанию (без дополнительных аргументов): построчное выведение в командной строке
  • с аргументом -o (или --output) pretty: вывод в командной строке в виде таблицы pretty table
  • с аргумент -o (или --output) file: генерация csv файла в папку results.
    Режим pep работает только с выдачей результата в файле csv с соответствующим названием. После успешного выполнения программы файл сохранится в папке results. Для примера, один файл, сгенерированный в ходе работы парсера в режиме pep уже присутствует в папке results.

Несколько примеров использования:

# посмотреть список статей по нововведениям с выводом в терминале
python main.py whats-new

# посмотреть список  документаций в терминале в формате pretty table с предварительной отчисткой кеша (данные заново загрузятся из Интернета)
python main.py latest-versions --clear-cache --output pretty

# сгенерировать таблицу csv с отчётом по текущим статусам PEP
python main.py pep

Авторство

Дима Смолов

Лицензия

MIT

About

bs4_parser_pep is a Python-based tool for efficiently parsing and compiling Python documentation and PEPs from the official Python website, featuring cached sessions and multiple display options.


Languages

Language:Python 100.0%