LMFrank / Go_Crawler

Golang爬虫项目

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Go_Crawler

Go写的一些爬虫项目

Python爬虫项目地址: https://github.com/LMFrank/CrawlerProject

demo01

初始Go爬虫,利用原生的net/http库爬取

demo02

  1. 对网页charset的检测,并将其统一编码为utf-8
  2. 正则表达式匹配,用于url拼接

Go_crawler_v1.0

以爬取豆瓣读书为例,构建爬虫项目,后期尝试改造为分布式爬虫

已改造为并发版,数据存储使用elasticsearch

Go_crawler_v2.0

在v1.0的版本上改造了并发结构,尝试拆分为微服务,使用内置的rpc进行通信

Distribute_cralwer

Go_crawler_v2.0中的豆瓣网爬虫项目

在本项目中重构了代码,加入了存储模块(ES),完善了框架

具体请查看:README

About

Golang爬虫项目


Languages

Language:Go 59.0%Language:CSS 25.9%Language:HTML 12.7%Language:JavaScript 2.3%