1.知乎爬虫
1.1 模拟登陆知乎
1.2 使用BeautifalSoup 对页面处理
1.3 设计了两个简单方法,输出知乎主页面的 所有问题和回答的摘要以及详细回答的连接
代码分析的链接:http://www.jianshu.com/p/2577e5bcbf05
2.爬取百度百科词条
2.1 采用面对对象的设计
2.2 爬取这个词条下面的所有url
2.3 爬取这个词条下面的所有url后,进入这些url里面,抓取需要的内容
2.4 内容被保存在文件上面
代码分析的链接 http://www.jianshu.com/p/2251149b9a57
to-do:
1. 解决编码问题
2. 以结构化的数据保存到数据库
3.python 实现一个简单的mini shell
代码分析的链接 http://www.jianshu.com/p/30bac36a7651