fanyong920/crawlItem

该插件适用chrome,360,搜狐等浏览器

起源

起初是想写一个爬取淘淘宝天猫商品的插件，现在这个插件抓取所有网站的整个网页内容。由于抓取的是整个网页内容，你得到整个网页内容后需要自己解析所需要的信息。下面是这个插件的使用步骤：

1.下载该项目到本地电脑，解压，得到crawlItem文件夹

2.打开chrome浏览器，在地址栏直接输入chrome://extensions/ 打开扩展程序页面
或者点击界面右上角三点->更多工具->扩展程序也可实现同样的效果

3.在打开的页面右上点击开发者模式按钮，打开开发者模式

4.点击加载已解压的扩展程序，选择刚才的crwalItem文件夹，安装谷歌插件，稍等片刻，就能看到页面多了一个插件，如果安装的插件没有自动打开，请点击插件右下角的按钮，打开插件，同时在浏览器右上角也多了一个图标 5.点击图标，看到有两个选项，根据所需打开相关选项。

打开爬取页面功能：勾选该复选框，才会向后台接口发送页面内容，同时接收数据接口出现
自动关闭页面：勾选该复选框，爬取页面完成后，页面自动关闭。
接收数据接口：接收页面数据的接口，需要自己定义，默认http://localhost:8080/content,与 打开爬取页面功能 联动

接收数据接口样例：

package com.molikam.shop.controller;


import java.util.concurrent.atomic.AtomicInteger;

import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RequestMethod;
import org.springframework.web.bind.annotation.RestController;


@RestController
public class CrawlerController {
	
	AtomicInteger count = new AtomicInteger(0);
	@RequestMapping(value="/content",method={RequestMethod.POST})
	public void getContent(String content){
		
		System.out.println(count.incrementAndGet());
		System.out.println(content);
		
	}
}

当您打开网页爬取功能，并且定义好接收数据接口，此时，您可以随意打开一个网页，如果顺利的话，接口会打印出网页的内容。
已经发布到谷歌商店，可搜索下载
插件地址：点我

我的JAVA爬虫框架

https://github.com/fanyong920/jvppeteer

fanyong920 / crawlItem

起源

我的JAVA爬虫框架

About

Languages