4575759ww / xspider

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

xspider

xspider建立的目的是,做为电影推荐算法研究的一个电影爬取工具。做为学术研究,此处暂时只基于电影观影行为(未使用读书等其它信息)来进行推荐。

该工具将爬取主流的三家网站(豆瓣网、时光网、IMDB)的数据。建立相应的数据基础,供数据挖掘和推荐引擎使用。它的实现使用scrapy进行编写。

功能

目前暂时的功能:

  • 1.支持豆瓣电影、电视剧的抓取.
  • 2.支持名人(演员/编剧/导演等)的抓取.
  • 3.支持对用户观影行为等的抓取.
  • 4.支持对电影热门短评/影评的抓取

爬虫实现:

  • 1.深度优先搜索, 可配置
  • 2.采用mysql存储, 去重逻辑采用redis。
  • 3.支持断点续爬

About


Languages

Language:Python 97.6%Language:Shell 2.4%