用于抓取贴吧发帖中的手机号和电子邮箱的一个爬虫
一个python写的多线程爬虫,可以对指定贴吧或者指定帖子主题的发帖内容中的手机号,邮箱进行多线程抓取,并持久化存储在数据库中。
多线程抓取,性能高效。模块化开发,比如说数据持久化函数可以替换成其他方式存储,数据过滤可以替换成别的正则表达式,自定义抓取需要的内容。
代码不够优雅,容错不够,未设置超时重试,错误重试机制,如果网络环境不好,或者抓取的目标网站有反爬虫策略,那么该爬虫将会无法正常工作。
自己看了一些写得很好,很规范的专业爬虫,发现自己离他们的距离还是很遥远。写好一个专业级的项目不容易。