Raywang80s / Spider

Python爬虫

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Python爬虫

1.知乎爬虫

1.1 模拟登陆知乎 
1.2 使用BeautifalSoup 对页面处理
1.3 设计了两个简单方法,输出知乎主页面的 所有问题和回答的摘要以及详细回答的连接
代码分析的链接:http://www.jianshu.com/p/2577e5bcbf05

2.爬取百度百科词条    

2.1 采用面对对象的设计
2.2 爬取这个词条下面的所有url    
2.3 爬取这个词条下面的所有url后,进入这些url里面,抓取需要的内容    
2.4 内容被保存在文件上面
代码分析的链接 http://www.jianshu.com/p/2251149b9a57

to-do:    
1. 解决编码问题    
2. 以结构化的数据保存到数据库

3.python 实现一个简单的mini shell

代码分析的链接 http://www.jianshu.com/p/30bac36a7651

About

Python爬虫


Languages

Language:Python 100.0%