techperfect / spider-1

python web爬虫

Home Page:http://www.simapple.com

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

spider

python 爬虫

版本1 功能简述: 以hao123为入口页面,滚动爬取外链,收集网址,并记录网址上的内链和外链数目,记录title等信息

windows7 32位上测试,目前每24个小时,可收集数据为10万左右

About

python web爬虫

http://www.simapple.com


Languages

Language:Python 100.0%