xtls2 / scrapy_for_video

爬取国内各大视频网站(腾讯视频,爱奇艺,乐视视频,芒果TV,bilibili,优酷等)的视频信息(电影,电视剧,纪录片,动漫,等......)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

爬取国内各大视频网站的视频信息

本项目始于2018-12-12
欢迎诸位路过的朋友一起完善这个项目
视频信息:电视剧,电影,动漫等的各种信息(标题,发布时间,年份,所属区域,导演,演员等信息)
剧集信息:电视剧,动漫等的剧集信息(例如,《将夜》电视剧下每集的链接,即名称,以及片头,片尾时间等)
更新信息:由于很多电视剧,动漫还在更新中,所以需要定时不断监控这些视频是否有更新。

交流QQ群:962607223 欢迎开发者加入

有任何问题皆可加QQ群交流,或询问群主,我希望同各位一起学习,交流,公共完善这个项目。

使用说明

git clone https://github.com/perfect-network/scrapy_for_video.git
cd scrapy_for_video
修改tv20181209/spiders/qq_spider.py 中的mysql信息
再将mysql.sql导入到数据库
然后保证已经将scrapy, math, json, requests, mysql-connector(若安装失败请百度,或私聊), time 这些库导入即可。。
scrapy crawl qq #执行腾讯视频的爬虫

将要爬取的站点

站点 链接 视频信息 剧集信息 更新信息
腾讯视频 http://v.qq.com
爱奇艺 http://iqiyi.com
优酷视频 https://www.youku.com/
芒果TV https://www.mgtv.com/
PPTV http://www.pptv.com/
乐视TV http://www.le.com/
搜狐视频 https://tv.sohu.com/
咪咕视频 http://www.miguvideo.com
华数TV https://www.wasu.cn/
风行TV http://www.fun.tv/
暴风视频 http://www.baofeng.com/
BiliBili https://www.bilibili.com/
CCTV http://www.cctv.com/
看看视频 http://www.kankan.com/
1905视频 http://www.1905.com/

自问自答

Q:怎么保证信息的完整性,不会漏缺
A:一般来说,没有成功入库的原因是在拼凑信息时停滞的,那我们只需要在那之前,将那个ID先储存于数据库,等这个ID的信息成功存于mysql再把那个ID去掉,或改变状态

About

爬取国内各大视频网站(腾讯视频,爱奇艺,乐视视频,芒果TV,bilibili,优酷等)的视频信息(电影,电视剧,纪录片,动漫,等......)


Languages

Language:Python 100.0%