springboot2、httpclient、jsoup、selenium
- xicidaili和kuaidaili上的高匿IP
- 百度搜索关键词数据列表
- CSDN页面阅读数
【2019-10-11】 针对页面数据延迟加载的问题,引入selenium进行web自动化模拟测试,等页面加载完全后再获取页面数据
【2019-07-04】 因为在玩docker的过程中在CSDN写博客,看到了博文的阅读数,加上前一段时间有个小活的需求是模拟登录并爬取页面数据(因为没做过,同时觉得没什么意思拒绝了),于是想通过程序是否可以刷一下阅读数,最后引申出各种各样的问题。
- CSDN的阅读数,大约一个IP在两分钟内连续打开同一个页面,阅读数只加1;
- CSDN对访问频率有监控,一个IP如果访问频繁,CSDN将会返回一个js文件代码,数据通过延迟加载,这样仅仅通过调用url无法获取到页面完整数据
- 因为IP被限制,于是想到是否可以使用IP代理,于是写了程序自动爬取xicidaili和kuaidaili的高匿IP,最后发现大部分IP不可用,有几个IP可用但对CSDN无效。
- 尝试使用程序自动登录CSDN,用登录后的cookie访问博文,本地测试都OK,最后发布到阿里云服务器,提示"风控判断盗号",尴尬!
以上只是玩玩,遇到问题的各种尝试,其实自己刷博文阅读数没有什么意义,写博文是大家共同学习的过程,有人阅读才真正体现博文的价值。 作为技术人员,拒绝使用做违法违规的事情,这是底线!