Anti_Fraud

爬虫项目

主要采用的爬虫技术有：Jsoup、htmlunit、webmagic-selenium

此服务当中，主要就是接受我们要爬取的网站信息，将信息推送当Kafka当中

此服务当中，主要放入的是一些公共的包和工具类

此服务当中，主要做的是：

1、消费kafka消息

2、先进行Jsoup进行静态爬取，爬取成功后放入ES进行存储，失败的情况下放入Kafka消息当中等待Htmlunit的爬取 Jsoup 爬取速度快，

3、htmlunit 是一款开源的java 页面分析工具，读取页面后，可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行，被誉为java浏览器的开源实现。是一个没有界面的浏览器，运行速度迅速。

4、如果htmlunit进行无界面爬取，爬取成功后放入ES进行存储，失败的情况下放入Kafka消息当中等待webmagic的爬取

5、进行webmagic（会开启一个浏览器，模拟浏览器访问，比较消耗资源）爬取，爬取成功后放入ES进行存储。

后续还会持续更新

1、爬取页面后，页面内链接模拟点击，进行数据爬取

2、模拟登陆后，进行数据爬取

3、爬取的页面进行截图

4、爬取的页面进行下载

5、目前是直接通过采集链接后，自己定义xpath进行规则匹配后爬取，后续改为接口形式，传递采集链接和需要采集的内容，更加智能化

可在百度上随意搜索你想要的关键字，将地址调用采集的接口就可以在ES当中看到采集的信息