fanyong920 / crawlItem

用于爬取淘宝天猫网页的谷歌插件

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

该插件适用chrome,360,搜狐等浏览器

起源

起初是想写一个爬取淘淘宝天猫商品的插件,现在这个插件抓取所有网站的整个网页内容。由于抓取的是整个网页内容,你得到整个网页内容后需要自己解析所需要的信息。下面是这个插件的使用步骤:

1.下载该项目到本地电脑,解压,得到crawlItem文件夹

2.打开chrome浏览器,在地址栏直接输入chrome://extensions/ 打开扩展程序页面
或者点击界面右上角三点->更多工具->扩展程序也可实现同样的效果

3.在打开的页面右上点击开发者模式按钮,打开开发者模式

4.点击加载已解压的扩展程序,选择刚才的crwalItem文件夹,安装谷歌插件,稍等片刻,就能看到页面多了一个插件,如果安装的插件没有自动打开,请点击插件右下角的按钮,打开插件,同时在浏览器右上角也多了一个图标 5.点击图标,看到有两个选项,根据所需打开相关选项。

打开爬取页面功能:勾选该复选框,才会向后台接口发送页面内容,同时接收数据接口出现
自动关闭页面:勾选该复选框,爬取页面完成后,页面自动关闭。
接收数据接口:接收页面数据的接口,需要自己定义,默认http://localhost:8080/content,与 打开爬取页面功能 联动

接收数据接口样例:

package com.molikam.shop.controller;


import java.util.concurrent.atomic.AtomicInteger;

import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RequestMethod;
import org.springframework.web.bind.annotation.RestController;


@RestController
public class CrawlerController {
	
	AtomicInteger count = new AtomicInteger(0);
	@RequestMapping(value="/content",method={RequestMethod.POST})
	public void getContent(String content){
		
		System.out.println(count.incrementAndGet());
		System.out.println(content);
		
	}
}

当您打开网页爬取功能,并且定义好接收数据接口,此时,您可以随意打开一个网页,如果顺利的话,接口会打印出网页的内容。
已经发布到谷歌商店,可搜索下载
插件地址:点我

我的JAVA爬虫框架

https://github.com/fanyong920/jvppeteer

About

用于爬取淘宝天猫网页的谷歌插件

License:Apache License 2.0


Languages

Language:JavaScript 69.0%Language:CSS 19.3%Language:HTML 11.7%