HuimengZhang / TianYanCha

天眼查爬虫程序

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

天眼查项目爬虫

作者信息

  • 姓名:Jiahong Zhou
  • 博客:JoeZJH.github.io
  • 时间:2020年1月24日

用途说明

  • 女朋友需要从天眼查上爬取公司的注册地址,本项目用于帮助女朋友节约时间

输入文件(注意格式和Sheet名称必须相同才能解析)

  • company_list.xlsx

输出文件

  • company_info.xls

用法说明

环境配置
  • python3.6环境
  • pip 命令安装以下包
    • beautifulsoup4
    • requests
    • xlrd
    • urllib
    • xlwt
使用步骤
  • 将需要爬取的文件打包成xlsx格式,Sheet名称为"Sheet2",文件命名为company_list.xlsx
  • 将文件放到当前目录下
  • 修改crawler.py文件中的target_headers对象中的Cookie属性为自己浏览器的(需要先从浏览器手动登陆天眼查网站)
    • 这一步是为了将请求伪装成真实的浏览器,所以如果修改Cookie后不能爬取的话,可以将target_headers对象所有的属性都修改为自己的
    • 经女朋友反馈,对于非程序员来说,这一步可能需要提示才能操作,详细操作步骤如下(这里以Chrome浏览器为例)
      • 登陆天眼查->右键->检查->点击Network->点击F5刷新界面->双击Network中的第一行->点击Headers->向下拉到Request Headers
      • target_headers中的属性对应修改为自己浏览器的即可
  • 运行crawler.py文件
python crawler.py

附加说明

  • 如果想拓展爬取公司的其他信息可修改解析函数
  • 如果不想命名为"Sheet2",请修改程序中的sheet_name为对应的名称即可

About

天眼查爬虫程序


Languages

Language:Python 100.0%