huangyueranbbc / WeiBoDataCrawl

微博自动爬虫

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

微博爬虫

参考一些DEMO些的微博自动爬虫

1. 安装依赖  
pip install -r requirements.txt  
2. 执行脚本  
    user_id_runner.py  爬取用户id,发送到kafka  
    weibo.py  消费kafka的微博id,爬取用户信息和用户微博  
3. 休眠时间根据自己策略设置,作为避免微博屏蔽策略  
4. 有一些已经爬取数据的数据集DEMO
5. 对python不熟悉,所以后期也不打算优化  

爬虫参考地址:

https://github.com/dataabc/weibo-crawler

微博分析项目:

对采集到的用户信息和微博数据进行ETL和数据分析
项目地址:
https://github.com/huangyueranbbc/WeiBoDataAnalyse

About

微博自动爬虫

License:MIT License


Languages

Language:Python 100.0%