现在抓取失败后显示的内容是 error!
welefen opened this issue · comments
welefen commented
现在抓取失败后显示的内容是 error,可以增加下重试的机制
Austin Lee commented
重新几次比较合适?以及在哪里加比较合适?我是直接在 article/saveAction 里面当 service 返回的内容为空的时候做尝试还是直接在 spider/getContent 里面做比较合适?
我看 crontab.js 好像是一个定期重新抓取内容的脚本,这个脚本如果跑起来的话是不是也不用关心重试的问题了?
Austin Lee commented
增加了收藏的时候获取网页 DOM 并存储成简洁版,所以简洁版大部分情况下一定会有。完整版还是通过服务器抓取一次,如果碰到有 error!
的情况会直接使用收藏的时候拿到的网页代码。
https://github.com/thinkjs-team/cicada/blob/master/src/home/controller/article.js#L127