sdwzzx / weibo_spider

新浪微博 搜索爬虫 使用selenium模拟鼠标点击和键盘输入。(⊙o⊙)… 这东西需要看浏览器反应速度和网速等等等

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

新浪微博爬虫


写的比较糙

  1. scrapy_weibo_selenium.py 使用selenium模拟鼠标点击和键盘输入事件,然后保存网页.(对页面可能出现的异常情况处理不够~~~)

  2. weibo_s.py 微博搜索页.内容获取. 这块比较啰嗦~~~ JS修改的html


其实在 1.中. 成功登陆之后可以直接 使用 browser.get_cookies()来获取cookies. 然后使用requests之类的做请求即可. 然而. 微博会检测你的访问频率, 过高就会让你输入验证码. 所以可以设置一个随机几秒的间隔.

About

新浪微博 搜索爬虫 使用selenium模拟鼠标点击和键盘输入。(⊙o⊙)… 这东西需要看浏览器反应速度和网速等等等


Languages

Language:Python 100.0%