wenke727 / WeiboSpiderSafety

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

微博

搜索正文中包含指定关键词的微博 其中关键词位于weibo/settings.py KEYWORD_LIST

NLP分析

Idea

  • 累计出现的高频词、主题词 微博喜欢讨论哪一类安全事故,不同博主有没有提出什么应对安全事故的见解

  • 高频词和主题词随时间的变化情况 某些高频词可能是在发生某一个安全事故后陡然增加的,如果有的话我们可以看安全事故与陡增的高频词的关系 Ref: 如何简单易懂地解释层次狄利克雷过程(HDP)

  • 微博数量随时间的变化情况

  • 情感分析

  • 微博在不同地区(省)的分布情况(不同地区的数量)

  • 分析微博的点赞量、转载量评论量 哪些内容的微博讨论比较多,讨论的主题是什么

Ref

数据获取

操作说明

  1. 获取cookie https://weibo.com/ -> F12 -> coockie

  2. 修改setting配置 weibo/settings.py: KEYWORD_LIST, START_DATE, END_DATE

  3. 启动爬虫

    conda activate weibo
    sh run.sh
  4. 输出 ./result, 以关键词划分

抓取情况

计划爬取16年以后的数据,共5.5年

  • 2021-01-01 ~ 2021-07-03
  • 2020-01-01 ~ 2020-12-31
  • 2019-01-01 ~ 2019-12-31
  • 2018-01-01 ~ 2018-12-31
  • 2017-01-01 ~ 2017-12-31
  • 2016-01-01 ~ 2016-12-31
  • 2011-01-01 ~ 2015-12-31

Ref

About


Languages

Language:Python 99.8%Language:Shell 0.2%