kevking / get-email-by-tieba

用于抓取贴吧发帖中的手机号和电子邮箱的一个爬虫

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

get-email-by-tieba

用于抓取贴吧发帖中的手机号和电子邮箱的一个爬虫

技术栈:Python,MySQL

开发时间:2015.7

开发规模:1人,1天。

项目简介:

一个python写的多线程爬虫,可以对指定贴吧或者指定帖子主题的发帖内容中的手机号,邮箱进行多线程抓取,并持久化存储在数据库中。

项目优点:

多线程抓取,性能高效。模块化开发,比如说数据持久化函数可以替换成其他方式存储,数据过滤可以替换成别的正则表达式,自定义抓取需要的内容。

项目缺点:

代码不够优雅,容错不够,未设置超时重试,错误重试机制,如果网络环境不好,或者抓取的目标网站有反爬虫策略,那么该爬虫将会无法正常工作。

项目总结:

自己看了一些写得很好,很规范的专业爬虫,发现自己离他们的距离还是很遥远。写好一个专业级的项目不容易。

About

用于抓取贴吧发帖中的手机号和电子邮箱的一个爬虫


Languages

Language:Python 100.0%