windonsky / webspider

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

python-learn

记录我的python学习过程中的代码,附有各文件学习内容和代码注释。 但,注意,其中没有python基本知识

re.py

re.py包含python的re模块的基础用法和代码示例。

webcollector.py

记录爬虫学习内容

myspider.py

构造爬虫基本类,基本行为的函数。 Spider():构造的爬虫基类; new_hearders():生成hearders字典; DelHTMLTag():处理抓取的html文本的html标记 SaveData():处理数据并储存到本地;

tieba_spider.py

访问百度贴吧的爬虫

cookie.py

记录学习使用cookie抓取网页的知识点,http.cookie中的(cookieJar(),MozilliaJar())

About

License:GNU General Public License v3.0


Languages

Language:Python 100.0%