snowman109 / rrdSpider

renrendai爬虫项目,能爬取用户信息,但不包含敏感信息。数据可以用于学术研究和数据分析。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

renrendai爬虫

背景

为了帮同学完成毕设,网上的数据太贵又不全,故写了该程序

介绍

该程序能排序renrendai上的用户数据,包含基本信息、信用认证、还款细则,由于该网站上通过请求拿到的数据只有1000条,即只能拿到1000条id,数据量太少,因此采用估算id。。。经测试,id区间大约为2000000~27000000.通过selenium模拟登录,通过BeautifulSoup拿到数据。

使用方法

  • 注册账号,将代码中的username和password改成自己的信息。
  • 创建数据库(此处用的mysql,如用其他自行更换引擎),数据库名renrendai,然后执行项目中的db.sql,即可完成表的创建
  • 自行查询selenium用法,需要配置路径,安装驱动,此处用的是狐火浏览器
  • 运行即可(注意修改id区间,位于第175行)

About

renrendai爬虫项目,能爬取用户信息,但不包含敏感信息。数据可以用于学术研究和数据分析。


Languages

Language:Python 61.4%Language:TSQL 38.6%