There are 3 repositories under webmagic topic.
天气爬虫(全国城镇天气自动定时抓取更新,并开放RESTful查询接口),附带代理IP池定时更新并检测其可用性
一个基于webmagic框架二次开发的java爬虫框架实战,已实现能爬取腾讯,搜狐,今日头条(单独集成功能)等资讯内容,配合elasticsearch框架用法,实现了自动爬虫,已投入线上生产使用。
基于SpringBoot 2.x整合各种常用开发工具,包括但不限于Redis,MyBatisPlus,RocketMQ,RabbitMQ,Elasticsearch,Quartz,Xxl-Job,Kafka等。
网络数据采集技术—Java网络爬虫 (书稿完整代码,涉及网络爬虫的各种技术和知识点)
SpringBoot+Solr + webmagic JD商品爬取数据,放入solr中做搜索,学习下solr使用
抓取twitter数据,可根据时间、话题、用户名等条件抓取数据,twitter爬虫
Java 电商爬虫,动态代理请自行更换!爬取目标:京东、考拉、丝芙兰;使用工具:HtmlUnit(单线程,大部分网站通过代理可以获取,但是反爬多层JS的无法取到)、ChromeDriver(多进程,需要考虑销毁机制)等(其它的不咋好用)(此项目只为研究各个工具的优劣,并不支持商用)
:tada:基于Springboot的SSM脚手架,目前已整合spring-scurity,websocket,docker,echarts,mybatis,elsticSearch.logback,ehcache,redis,kafka,jwt等,旨在开箱即用,简化搭建流程.集成了爬虫项目,OpenCV项目.WebSocket项目.
使用springboot、spring-data-jpa、webmagic等技术,定时爬取爱奇艺视频、360视频
基于 springboot 底座、webmagic 爬虫内核、xxl-job 任务定时调度实现的分布式爬虫平台
A dynamic crawler plug-in for the Android platform based on Dex dynamic loading, which can dynamically load and execute the dex plug-in package, and can realize real-time updates of crawler and other functions.
Crawler on Zhihu/Bilibili/Weibo/Baidu/Douban trending items, powered by WebMagic
A crawling and scraping project for news content build on top of Webmagic
Cover letter generator with Generative AI