GeorgiyDemo / avitodumper

Avito.ru numbers dumper with selenium, beautifulsoup and tesseract ocr

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Дампер номеров с Avito

Только лишь демо, если у вас есть желание - можете сделать вывод на web-клиент или бот с БД, пока только в .txt

Стек

  • Selenium + chromedriver
  • BS4 + lxml
  • Tesseract OCR + мод .traineddata
  • Docker

Настройка

Производится в файле settings.yml, где:

  • city_in_url - город, который отображается в URL объявлений на сайте;
  • numbers_count - количество необходимых номеров;
  • phone_number_length - длинна номера (для России 11);
  • second_url - URL категории товаров, по которой собираем номера. Обратите внимание на параметр &user=1 в URL, необходимый для отображения объявлений только от частных пользователей.

Вывод осуществляется в OUTPUT.txt

Проблемы/доделать

  • Иногда selenium отдаёт selenium.common.exceptions.TimeoutException, просто перезапускаете docker
  • Нет фильтрации на дубли номеров

Пример работы

About

Avito.ru numbers dumper with selenium, beautifulsoup and tesseract ocr

License:GNU General Public License v3.0


Languages

Language:Python 83.9%Language:Dockerfile 16.1%