songgeb / BDIndexSpider

百度指数爬取工具,基于webdriver。开放源码提供一个抓百度指数的思路

Home Page:https://songgeb.github.io/2017/01/29/%E7%99%BE%E5%BA%A6%E6%8C%87%E6%95%B0%E7%88%AC%E5%8F%96%E5%B7%A5%E5%85%B7/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

BDIndexSpider

项目代码早已不再更新,望见谅

百度指数抓取工具

提供关键词、起始和结束日期、地区,软件能够抓取多个关键词每天的百度指数

请仔细阅读本文档说明,一些简单的问题自己查,别人没义务为你解答

Feature

  • 支持按照省份、城市查询
  • 目前仅支持PC+移动趋势指数数据抓取
  • 实测兼容MacWindows系统,理论上也支持Linux,但没测过

Requirement

  • 源码基于Java1.8
  • 使用Maven管理

使用说明

  • 运行前,需要在左上角初始化中配置账户密码和导入要抓取的关键词
  • 需要安装Chrome浏览器,版本在69-71之间
  • 源码中的a.txt为输入文件格式要求,可以输入多行
  • 如果不想运行源码,可以到executable目录下直接下载可执行jar文件

常见问题

关于工具的问题反馈和建议,推荐大家在github上开issue进行详细说明

PS: 像如何运行jar在哪里下载这种问题建议自己网上查查,多翻翻文档

启动后总是初始化失败

  1. 使用管理员权限运行jar试一下
  2. 检查下账号密码和关键词是否已设置

ChangeLog

  • 2018年11月06日

    • 适配新的百度指数页面,新版页面不再需要下载图片+图像识别
    • 速度会更快,但尚不清楚是否会有频率限制问题
  • 2018年05月11日 适配新的百度指数页面

  • 2018年04月22日 加入按照地区查询功能

  • 2018年04月13日 不再使用tesseract进行ocr,自己写了个ocr实现

  • 2018年04月08日 提高精确模式抓取效率

  • 2018年04月05日 添加可执行jar文件,添加用户可配置账户密码功能

  • 2018年04月01日 目前已经修复了精确模式,可以正常运行

  • 2018年03月27日 本代码写于2016年,首次开源,目前由于Webdriver驱动的问题,无法直接运行。后面会抽时间修复一下

打赏

微信

支付宝

About

百度指数爬取工具,基于webdriver。开放源码提供一个抓百度指数的思路

https://songgeb.github.io/2017/01/29/%E7%99%BE%E5%BA%A6%E6%8C%87%E6%95%B0%E7%88%AC%E5%8F%96%E5%B7%A5%E5%85%B7/


Languages

Language:Java 100.0%