lqqyt2423 / wechat_spider

微信爬虫,获取文章内容、阅读量、点赞量、评论等,获取公众号所有历史文章链接。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

自动翻页爬取过程中加载停止,需手动刷新

ritou11 opened this issue · comments

在自动翻页爬取的过程中,有时会出现文章加载进度条缓慢、无法加载的情况,这时只能手动刷新。这对于爬取大量文章是致命的,请问owner是否有相关解决方案可以分享?

commented

我这遇到的是一直重复几篇文章,很难受

无更好的解决方案。我想到的一个方法是可以监测数据库的入库频率,有异常通知出来,然后还是需要人工手动刷新,不过就是不需要实时关注。

嗯嗯,一个思路是用appium来操作手机,hyfand/wechat_spider做了类似的扩展工作。但是看上去比较麻烦了,目前的方案已经足够优雅。