SpiderClub / haipproxy

:sparkling_heart: High available distributed ip proxy pool, powerd by Scrapy and Redis

Home Page:https://spiderclub.github.io/haipproxy/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

获取到的代理ip,可用性较低

d4wner opened this issue · comments

RT,我这边在使用客户端案例,python3直接获取代理的时候,会一次性获取一堆可用性较低的ip,需要单独做较多次验证才能获取几个较为可用的(比如在ip检测网站,几秒内能获取到返回)。

另外,在使用二级代理池squid的时候,也是需要反复从http://127.0.0.1:3128的接口,也是获取很多次才能获取到较为可用的ip,不知道设本项目设置里能否直接做一部分验证和过滤?

为了防止gfw,已经启用参数:

python3 crawler_booter.py --usage crawler common ajax
python3 scheduler_booter.py --usage crawler crawler common ajax

希望作者能给予解答?

目前由于精力所限,该项目未做进一步维护了。可用性低的一个很重要的原因是因为代理IP源没得到更新,我前段时间跑了一下项目,看到很多代理IP源已经关了,或者换了接口或界面。该项目的代理IP调度器会在代理IP不多的时候,选择低质量的代理IP进行调度。
为了提高可用性,需要用户自己对代理IP源进行扩展,或者更新已有代理IP源的解析代码。