EgoisTa-Git / books-library-restyle

Скрипт-парсер для скачивания электронных книг с сайта tululu.org.

Home Page:https://egoista-git.github.io/books-library-restyle/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Парсер книг с сайта tululu.org

Скрипт для автоматического скачивания электронных книг с сайта tululu.org.

После работы скрипта, на основе полученной информации, легко запустить сайт с библиотекой книг, используя информацию из JSON-файла. Пример работы тут.

Установка

  • Рекомендуется использовать виртуальное окружение для запуска проекта.
  • Для корректной работы Вам необходим Python версии 3.6 и выше.
  • Нужно установить все необходимые модули:
pip install -r requirements.txt

Запуск

Для начала скачивания книг введите в консоли:

python main.py

Внимание: Запуск скрипта в конфигурации по-умолчанию требует очень много времени для скачивания всего объема данных.

Аргументы

Для настройки диапазона скачивания книг используйте аргументы для командной строки.

Необязательные аргументы

  -h, --help                  show this help message and exit
  --start START               Начать скачивать со страницы №...
  --end END                   Остановить скачивание на странице №...
  --dest_folder DEST_FOLDER   путь к каталогу с результатами парсинга: картинкам, книгам, JSON
  --skip_imgs                 Пропустить скачивание изображений
  --skip_txt                  Пропустить скачивание книг
  --json_path JSON_PATH       путь к каталогу с результатами в JSON

Например:

python main.py --start=700 --end=701 --dest_folder=media --json_path=db --skip_imgs --skip_txt

Код написан в образовательных целях на курсах для веб-разработчиков dvmn.org.

About

Скрипт-парсер для скачивания электронных книг с сайта tululu.org.

https://egoista-git.github.io/books-library-restyle/

License:MIT License


Languages

Language:HTML 93.2%Language:Python 6.8%