yinchuandong / DistributedCrawler

java分布式爬虫,主机和从机控制的机制

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

java分布式爬虫,主机和从机控制的机制, ConsistentHash分发Url,维持负载均衡

说明

本文使用redis来保存url, 请自己安装redis,否则无法运行爬虫,

目录结构

CrawlerMaster
|—— 爬虫主机端,进行url分发, 运行main.Index.java即可
|—— 加入从机之后,按照以下4个步骤点击按钮:
|—— 1.分发url
|—— 2.保存url
|—— 3.开始爬取

CrawlerSlave 
|—— 爬虫从机端,具体进行爬取,如果想要和主机连接,进行分布式爬取,运行main.Index.java,
|—— 如果在一台电脑上开启多个从机,需要自己修改网页的保存目录,默认为./web

About

java分布式爬虫,主机和从机控制的机制


Languages

Language:Java 100.0%