Captain-F / DoubanHahahaScraper

哈哈哈哈哈哈

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

豆瓣小组爬虫(哈哈哈哈哈哈哈组)

本库包含哈组爬虫及数据分析代码

#####仅用于学习、交流#####
#####更新于2021.2.5#####

语言

  • python 3.6

依赖库

  • beautifulsoup4 (>= 4.6.0)
  • requests (>= 2.18.4)
  • pandas (>= 0.20.3)
  • tqdm (>= 4.49.0)

爬取字段包括:

  • 标题
  • 作者昵称
  • 作者id
  • 回应数
  • 发帖时间
  • 发帖方式
  • 帖子内容
  • 帖子url
  • 回应内容
  • 回帖人url
  • 回帖方式
  • 帖子中包含图片(或gif)的数量

输出:

  • 包含上述字段的CSV表

=====================================================

哈组数据分析代码(data_vis.ipynb)

依赖库

  • wordcloud == 1.8.1
  • numpy >= 1.19.1
  • matplotlib >= 3.3.3
  • pandas >= 1.1.5

About

哈哈哈哈哈哈

License:MIT License


Languages

Language:Jupyter Notebook 100.0%