Achernar0208 / SpiderChaser

爬虫实用案例,目前已包含8684公交网、**观鸟记录中心、巨潮资讯网(报告下载、词频统计),持续更新中

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

SpiderChaser

此项目下所有爬虫仅供学习交流,不承担任何法律责任,如有侵权,请联系作者删除

如果本项目中的爬虫对你有帮助,给我点上一个小星星:star2:吧!你们的星星是我持续更新的动力!


巨潮资讯网(http://www.cninfo.com.cn)

主要包含两个功能:

  • 报告下载
  • 报告分析

报告下载采用异步的方式(aiohttp)来并发下载报告,具体流程建议阅读代码,这里不做进一步解释

报告下载示例代码

from report_downloader import ReportDownloader
downloader = ReportDownloader()
downloader.download()

报告下载运行截图
download

ReportDownloader类初始化参数:

参数 含义 可选项 默认
category 报告类型 年度报告、半年度报告、三季度报告、一季度报告、招股说明书 年度报告
report_path 报告存储路径 当前目录

download方法可配置参数:

参数 含义 可选项 默认
start_year 起始年份 2012
end_year 结束年份 2022
file_type 下载文件类型 txt、pdf txt
stock_codes 股票代码 A股、B股、all或自定义列表 A股
only_zip 仅保留压缩包 True、False False
max_concurrency 最大并发量(协程) 20
excluded_keywords_in_title 排除含特定标题的报告 '修改', '取消', '摘要', '意见', '提示性', '概要','公告'

报告分析采用多进程的方式(multiprocessing)来对本地已保存的报告进行词频统计、情感分析(TODO)

词频统计示例代码

from report_analyzer import ReportAnalyzer
downloader = ReportAnalyzer(category='招股说明书',report_path=r'D:\爬虫数据\招股说明书')
downloader.count_keywords_frequency(keywords='股东')

词频统计运行截图
keywords_frequency

招股说明书词频统计截图
招股说明书词频统计

年度报告词频统计截图
年度报告词频统计

ReportAnalyzer类初始化参数:

参数 含义 可选项 默认
category 报告类型 年度报告、半年度报告、三季度报告、一季度报告、招股说明书 年度报告
report_path 报告存储路径 当前目录

count_keywords_frequency方法可配置参数:

参数 含义 可选项 默认
keywords 关键词 str、list
start_year 起始年份 2012
end_year 结束年份 2022
stock_codes 股票代码 A股、B股、all或自定义列表 A股
save_type 分析结果文件类型 csv csv
save_name 分析结果文件名 result
max_concurrency 最大并发量(进程) 当前cpu核数
traditional 开启繁体 True、False False

8684公交网(https://www.8684.cn)

功能:爬取全国各省份的所有公交线路信息,最后以省份为单位保存为excel文件

运行结果截图: 直辖市公交线路

通过 js 逆向解密数据,可以访问该网站的后端接口

  1. 安装 node 环境
  2. npm install jsdomnpm install crypto-js
  3. 安装 python 程序中将要使用到的库
  4. 运行 main 文件

About

爬虫实用案例,目前已包含8684公交网、**观鸟记录中心、巨潮资讯网(报告下载、词频统计),持续更新中

License:GNU General Public License v3.0


Languages

Language:JavaScript 84.9%Language:Python 15.1%