jon2180 / gdzwfw-crawler

Crawler for [广东政务服务网](https://www.gdzwfw.gov.cn/portal/affairs-public-duty-city?region=440000) with Python

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

爬虫程序 For 广东政务服务

分层部分

  • HTML/Json 下载器
    • html_downloader
  • HTML/Json 解析器
    • html_parser
  • URL 管理器 (为多线程、多进程准备的,目前用不着)
    • url_manager
  • 爬虫派遣
    • gdzwfw_crawler
  • 工具函数
    • api 用于包裹接口
    • excel_writer 输出 excel
    • config 配置
    • data_conversion 数据转化,把页面数据转化为表格需要的数据
  • 模型
    • model/PowerAndResponsibility

对于 gdzwfw_crawler

总体分为三个页面

其中

为纯 json 获取

第三个页面

为纯 html 解析

About

Crawler for [广东政务服务网](https://www.gdzwfw.gov.cn/portal/affairs-public-duty-city?region=440000) with Python

License:MIT License


Languages

Language:Python 100.0%