博客园相关文章:http://www.cnblogs.com/seven007
2. 知乎求关注~~知乎账号@Accelerator
在知乎看到一个可视化话题的文章,所以一时心血来潮,打算用Java也写一个爬虫并且集成到Spring中,结合ECharts生成人物关系,当然,既然爬一次,个人信息也都要获取到。 那么今天起起(结束日未知,目录也会根据实际情况进行更新),我将写一个系列的爬取知乎的爬虫文章,一直到数据可视化完成(完成后,爬虫部分将使用Scala重写)。
附赠之前爬取的数据一份(mysql): 链接: http://pan.baidu.com/s/1qXGa8S8 密码: t2vi(只下载不点赞,不star,差评差评蓝瘦香菇)
下载转存的好多,,,但是没人star啊兄弟们~~~
- 人物关系可视化
- 人员地理分布可视化
- 人员大学分布可视化
- 男女比例可视化
- 用户点赞可视化
- 开篇感言
- 爬虫流程设计
- 如何过滤重复数据
- 如何在爬取时创建人物关系
- 请求分析
- 登陆请求分析
- 跟随/关注请求分析
- 抓取页面数据
- jsoup抽取页面内容
- 优化
- 使用多线程加速
- 使用队列减少数据库访问
- 实现LRU提高缓存命中率
- 基于SpringCloud的简单应用
- 介绍
- 简单配置
- 扩展内容
- 整合Mybatis
- 编写Jsonp跨域请求API
- 走起苦逼的前端
- 使用Bootstrop布局
- 引入ECharts图形库
- 再见,吹牛结束。
吾爱Java(QQ群):170936712(点击加入)
#更新记录:
- 2016/11/30
- 第一次上传
- 2016/12/13
- 修复线程过多导致内存爆炸问题
- 2016/12/22
- 修复数据库死锁问题
- 更简单没水平的LruCache
- 完善了初始化爬虫选择数据问题
- 2016/12/26
- 修复多线程死锁问题
- 2016/12/28
- 完善登陆流程
- 修复增加follower问题
- 修复更新数userBase据过慢问题
- 减少cpu占用
- userInfo表增加两个字段