fengjinhai / tujiCrawer

通用的图集抓取程序,采用配置模板对大部分站点进行图集抓取。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

tujiCrawer

通用的图集抓取和字段解析程序,采用配置模板对大部分站点进行图集抓取。

配置程序在conf中按照现有格式进行配置

  • clientSource.py 和 clientPage.py 为两个主要的程序
  • clientSource.py 用来发现链接
  • clientPage.py 用来抓取具体页面的图片

数据库表结构

CREATE TABLE tbl_content (

urlSign char(32) NOT NULL DEFAULT '0' COMMENT '来源url的sign',
title varchar(256) NOT NULL DEFAULT '' COMMENT '标题',
text text NOT NULL COMMENT 'text',
images text NOT NULL COMMENT '图片json',
tags varchar(1024) NOT NULL DEFAULT '' COMMENT '内容 tag',
url varchar(1024) NOT NULL DEFAULT '' COMMENT '新增URL',
isAlbum tinyint(1) NOT NULL DEFAULT '0' COMMENT '是否图集',
picUrl varchar(1024) NOT NULL DEFAULT '' COMMENT 'picUrl',
mypos varchar(1024) NOT NULL DEFAULT '' COMMENT 'mypos',
sourceUrl varchar(1024) NOT NULL DEFAULT '' COMMENT '抓取URL',
status tinyint(4) NOT NULL DEFAULT '0' COMMENT '状态',
category varchar(64) NOT NULL DEFAULT '' COMMENT '类目',
domain varchar(1024) NOT NULL DEFAULT '' COMMENT 'domain',
publishTime timestamp NOT NULL DEFAULT '0000-00-00 00:00:00' COMMENT '发布时间',
crawlTime timestamp NOT NULL DEFAULT '0000-00-00 00:00:00' COMMENT '创建时间',
PRIMARY KEY (urlSign),
KEY status_idx (status)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

About

通用的图集抓取程序,采用配置模板对大部分站点进行图集抓取。


Languages

Language:Python 100.0%