Python爬虫

1.知乎爬虫

1.1 模拟登陆知乎 
1.2 使用BeautifalSoup 对页面处理
1.3 设计了两个简单方法，输出知乎主页面的 所有问题和回答的摘要以及详细回答的连接
代码分析的链接：http://www.jianshu.com/p/2577e5bcbf05

2.爬取百度百科词条

2.1 采用面对对象的设计
2.2 爬取这个词条下面的所有url    
2.3 爬取这个词条下面的所有url后，进入这些url里面，抓取需要的内容    
2.4 内容被保存在文件上面
代码分析的链接 http://www.jianshu.com/p/2251149b9a57

to-do：    
1. 解决编码问题    
2. 以结构化的数据保存到数据库

3.python 实现一个简单的mini shell

代码分析的链接 http://www.jianshu.com/p/30bac36a7651

Raywang80s / Spider

Python爬虫

About

Languages