interlark / parser-2gis

Парсер сайта 2GIS для сбора адресов и контактов предприятий России и стран СНГ

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Ряд доработок

Proteus86 opened this issue · comments

Предлагаю следующее.
1 сделать возможность работать в несколько потоков.
2 Загружать файлы с ссылками. Ранее подготовленными. К сожалению если требуется выбрать например 20/30 рубрик то клацать мышкой не удобно. Примерно там 1590 ссылок по итогу получается .
Файлы например можно поделить по городам и передавать парсеру. Далее он их обрабатывает и ложит в отдельные файлы результат .
3 При старте проверять есть ли файл куда будет производится сохранение . Просто по недогляду легко запустить парсер с сохранением в старый файл и он его тут же затирает .

Посути это все сделать уже можно используя интерфейс командной строки и немного скриптов . Но не все могут их писать .

Круто. Но тут сто́ит понимать ради чего был создан parser-2gis - для удобной точечной аналитики в рамках города, региона и страны. Также его можно использовать для поиска клиентской базы и деловых партнеров.
Это не тысчи ссылок.

Если вы захотели скачать весь 2GIS себе на диск - то parser-2gis не создан для этого, но даже в таком случае можно написать скрипт генерации всех возможных URL из data/cities.json и data/rubrics.json и загрузить эти тысячи ссылок через CLI в несколько инстансов на разных машинах и спарсить 2GIS в районе от нескольких недель до месяца.

Что касается третьего пункта, то при нажатии Обзор и выбора пути всплывает алёрт с предупреждением о перезаписи. А если используете CLI, то force overwrite флаги не предусмотрены опять же из-за того, что это утилита не повседневного пользования.