isjia / DoubanBooks

利用爬虫得到的豆瓣,读书信息,包括标签,书名,评分,评价人数,作者,出版社,详细url地址,以及每本书的详细星级情况,推荐书籍url

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

DoubanBooks

最近正好有关书籍的研究,豆瓣的反扒机制虽然不是很复杂,但是还是需要登录,cookie,验证码之类,代理IP。迫于要求,代码暂不分享。分享部分爬取信息以供有需要的人。

目前该repo的信息包括,按照tag爬取的

  • 标签
  • 书名
  • 评分
  • 评价人数
  • 作者
  • 出版社
  • 详细信息url地址

这些信息都是csv格式,根据详细url地址可以继续爬取该书本详细信息。

除此之外,还有根据上述url获得的

  • 每个星级的得分
  • 总得分
  • 该书籍的tag
  • 本书推荐的书籍

这些信息以json形式保存,目前只能分享部分信息。

会不定期更新该数据repo,如果有需要获取某些指定书籍的可以通过邮箱联系我。

About

利用爬虫得到的豆瓣,读书信息,包括标签,书名,评分,评价人数,作者,出版社,详细url地址,以及每本书的详细星级情况,推荐书籍url