wgcgxp / WebCrawlers

国家统计局的爬虫

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

WebCrawlers

国家统计局的爬虫

主要是针对国家统计局网站的内容进行爬虫,网站是 http://www.stats.gov.cn/
完成三个内容的爬虫:

  1. 工业主要产品产量及增长速度
  2. 工业分大类行业增加值增长速度
  3. 全国规模以上企业利润

并且爬完数据之后,会进行一定的数据处理并保存为excel文件,处理逻辑为:

  1. 上升15%或者三负转正标红
  2. 下降15%或者三正转负标绿

最后文件存储在data文件夹里面,文件名字为当天的日期,文件格式为excel

About

国家统计局的爬虫


Languages

Language:Python 52.2%Language:Jupyter Notebook 47.8%