spider-tutorial 1、一个简单的爬虫 2、使用cookie登陆 3、使用代理IP,突破限制IP地址的情况,一个开源的代理IP服务,一个免费的代理IP网站 4、修改请求的User-Agent,有些网页移动端浏览器和PC端浏览器访问返回的结果不一样 5、下载图片 6、使用缓存(强缓存或协商缓存)判断是否网页是否更新 7、持久化存储,mongdb 8、async限制异步并发数 9、ip池