Jiehui-Xu / BDIndexSpider

百度指数爬取工具，基于webdriver。开放源码提供一个抓百度指数的思路

https://songgeb.github.io/2017/01/29/%E7%99%BE%E5%BA%A6%E6%8C%87%E6%95%B0%E7%88%AC%E5%8F%96%E5%B7%A5%E5%85%B7/

BDIndexSpider

百度指数抓取工具

提供关键词、起始和结束日期，软件能够抓取多个关键词每天的百度指数

Feature

支持按照省份、城市查询
实测兼容Mac、Windows系统，理论上也支持Linux，但没测过

Requirement

源码基于Java1.8
使用Maven管理

使用说明

如果没什么计算机基础，只是想要几个关键词长时间的数据的话，建议去淘宝购买更划算，淘宝按关键词个数收费，如果自己用工具抓可能会慢一点
运行前，需要在左上角初始化中配置账户密码和导入要抓取的关键词
需要安装Chrome浏览器，版本在64-66之间
源码中的a.txt为输入文件格式要求，可以输入多行
如果不想运行源码，可以到executable目录下直接下载可执行jar文件
关于抓取频率限制问题可以看这里

常见问题

关于工具的问题反馈和建议，推荐大家在github上开issue进行详细说明

PS: 像如何运行jar、在哪里下载这种问题建议自己网上查查，多翻翻文档

启动后总是初始化失败

使用管理员权限运行jar试一下
检查下账号密码和关键词是否已设置

图片抓取正常，但无法进行ocr识别

如果程序中途因为超时等原因停止，则不会进行ocr识别，该种情况可参考ocr工具是干什么用的
在Windows 10系统下，由于抓到的图片进行了放大导致无法识别。解决办法是，桌面->右键->显示设置->缩放与布局->更改文本、应用等项目的大小，改为100%

ocr工具是干什么用的

由于网络超时等因素，当要抓取的时间跨度很长时，可能中途失败，此时只是抓到了图片数据，却没有识别为数字。可以用该工具将这些图片转为数字文本文件

ChangeLog

2018年05月11日适配新的百度指数页面
2018年04月22日加入按照地区查询功能
2018年04月13日不再使用tesseract进行ocr，自己写了个ocr实现
2018年04月08日提高精确模式抓取效率
2018年04月05日添加可执行jar文件，添加用户可配置账户密码功能
2018年04月01日目前已经修复了精确模式，可以正常运行
2018年03月27日本代码写于2016年，首次开源，目前由于Webdriver驱动的问题，无法直接运行。后面会抽时间修复一下

About

百度指数爬取工具，基于webdriver。开放源码提供一个抓百度指数的思路

https://songgeb.github.io/2017/01/29/%E7%99%BE%E5%BA%A6%E6%8C%87%E6%95%B0%E7%88%AC%E5%8F%96%E5%B7%A5%E5%85%B7/

Languages

Language:Java 100.0%