kevin4j / spring-grab

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

采用技术:

springboot2、httpclient、jsoup、selenium

爬取的demo:

  1. xicidaili和kuaidaili上的高匿IP
  2. 百度搜索关键词数据列表
  3. CSDN页面阅读数

备注:

【2019-10-11】 针对页面数据延迟加载的问题,引入selenium进行web自动化模拟测试,等页面加载完全后再获取页面数据

【2019-07-04】 因为在玩docker的过程中在CSDN写博客,看到了博文的阅读数,加上前一段时间有个小活的需求是模拟登录并爬取页面数据(因为没做过,同时觉得没什么意思拒绝了),于是想通过程序是否可以刷一下阅读数,最后引申出各种各样的问题。

  1. CSDN的阅读数,大约一个IP在两分钟内连续打开同一个页面,阅读数只加1;
  2. CSDN对访问频率有监控,一个IP如果访问频繁,CSDN将会返回一个js文件代码,数据通过延迟加载,这样仅仅通过调用url无法获取到页面完整数据
  3. 因为IP被限制,于是想到是否可以使用IP代理,于是写了程序自动爬取xicidaili和kuaidaili的高匿IP,最后发现大部分IP不可用,有几个IP可用但对CSDN无效。
  4. 尝试使用程序自动登录CSDN,用登录后的cookie访问博文,本地测试都OK,最后发布到阿里云服务器,提示"风控判断盗号",尴尬!

以上只是玩玩,遇到问题的各种尝试,其实自己刷博文阅读数没有什么意义,写博文是大家共同学习的过程,有人阅读才真正体现博文的价值。 作为技术人员,拒绝使用做违法违规的事情,这是底线!

About


Languages

Language:Java 92.1%Language:HTML 7.3%Language:Dockerfile 0.6%Language:Batchfile 0.1%