thinkjs / cicada

Favorite article collections system

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

现在抓取失败后显示的内容是 error!

welefen opened this issue · comments

现在抓取失败后显示的内容是 error,可以增加下重试的机制

重新几次比较合适?以及在哪里加比较合适?我是直接在 article/saveAction 里面当 service 返回的内容为空的时候做尝试还是直接在 spider/getContent 里面做比较合适?

我看 crontab.js 好像是一个定期重新抓取内容的脚本,这个脚本如果跑起来的话是不是也不用关心重试的问题了?

增加了收藏的时候获取网页 DOM 并存储成简洁版,所以简洁版大部分情况下一定会有。完整版还是通过服务器抓取一次,如果碰到有 error! 的情况会直接使用收藏的时候拿到的网页代码。

https://github.com/thinkjs-team/cicada/blob/master/src/home/controller/article.js#L127