jiadajun / sspider

异步高效可扩展的爬虫框架

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

sspider

异步高效可扩展的爬虫框架

市面上的爬虫框架很多,要么就是很复杂、要么就是很重量级,扩展性差。每个人,每个公司都有自己风格,想要用一个框架拴住大家是不可能的。再加上大多数人是不喜欢阅读别人的代码的,弄成一个复杂的,别人还要去读文档,然后东一个模块,西一个模块,业务一复杂,都绕晕了。总而言之高效简单是我们的宗旨。 本框架基于dockers 的云部署 支持分布式大型网站高效抓取

框架的优势:

1.简单。代码阅读简单、下载即用。与时俱进docker容器化部署。(大型分布式轻轻松松)

2.高效,异步协程框架,

3.自由扩展,发展成自己的风格

文件功能介绍

公共文件模块 commom

function 公用的函数库 settings 公共的配置信息 比如 redis mysql kafka ES 等 spider_settings 爬虫信息配置文件 比如 example 项目爬虫 example2 example3 等等 每个爬虫都是不一样的,全部通用是不可能的,但是每个项目的爬虫还是有通用的比如 url、头文件、任务队列等

spiders 爬虫的主要逻辑文件

案例是 example 项目 demo 爬虫 你可能会有

example2 项目 demo1 demo2 demo3等爬虫 自行扩展

About

异步高效可扩展的爬虫框架


Languages

Language:Python 96.8%Language:Dockerfile 3.0%Language:Shell 0.2%