facejiong / spider-tutorial

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

spider-tutorial

1、一个简单的爬虫

2、使用cookie登陆

3、使用代理IP,突破限制IP地址的情况,一个开源的代理IP服务一个免费的代理IP网站

4、修改请求的User-Agent,有些网页移动端浏览器和PC端浏览器访问返回的结果不一样

5、下载图片

6、使用缓存(强缓存或协商缓存)判断是否网页是否更新

7、持久化存储,mongdb

8、async限制异步并发数

9、ip池

About


Languages

Language:JavaScript 100.0%