jonqiao / 163Music

163music spider by scrapy.

Home Page:http://www.yukunweb.com/2017/07/python-spider-163music/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

163Music

基于Scrapy框架的网易云音乐爬虫,大致爬虫流程如下:

  • 以歌手页为索引页,抓取到全部歌手;
  • 从全部歌手页抓取到全部专辑;
  • 通过所有专辑抓取到所有歌曲;
  • 最后抓取歌曲的精彩评论。

数据保存到Mongodb数据库,保存歌曲的歌手,歌名,专辑,和热评的作者,赞数,以及作者头像url。

抓取评论者的头像url,是因为如果大家喜欢,可以将他做web端。

运行:

$ scrapy crawl music

查看详情:here

About

163music spider by scrapy.

http://www.yukunweb.com/2017/07/python-spider-163music/


Languages

Language:Python 100.0%