xtls2/scrapy_for_video

爬取国内各大视频网站的视频信息

本项目始于2018-12-12
欢迎诸位路过的朋友一起完善这个项目
视频信息：电视剧，电影，动漫等的各种信息（标题，发布时间，年份，所属区域，导演，演员等信息）
剧集信息：电视剧，动漫等的剧集信息（例如，《将夜》电视剧下每集的链接，即名称，以及片头，片尾时间等）
更新信息：由于很多电视剧，动漫还在更新中，所以需要定时不断监控这些视频是否有更新。

交流QQ群:962607223 欢迎开发者加入

有任何问题皆可加QQ群交流，或询问群主，我希望同各位一起学习，交流，公共完善这个项目。

使用说明

git clone https://github.com/perfect-network/scrapy_for_video.git
cd scrapy_for_video
修改tv20181209/spiders/qq_spider.py 中的mysql信息
再将mysql.sql导入到数据库
然后保证已经将scrapy, math, json, requests, mysql-connector(若安装失败请百度，或私聊), time 这些库导入即可。。
scrapy crawl qq #执行腾讯视频的爬虫

将要爬取的站点

站点	链接	视频信息	剧集信息	更新信息
腾讯视频	http://v.qq.com	✔	✔	✖
爱奇艺	http://iqiyi.com	✖	✖	✖
优酷视频	https://www.youku.com/	✖	✖	✖
芒果TV	https://www.mgtv.com/	✖	✖	✖
PPTV	http://www.pptv.com/	✖	✖	✖
乐视TV	http://www.le.com/	✖	✖	✖
搜狐视频	https://tv.sohu.com/	✖	✖	✖
咪咕视频	http://www.miguvideo.com	✖	✖	✖
华数TV	https://www.wasu.cn/	✖	✖	✖
风行TV	http://www.fun.tv/	✖	✖	✖
暴风视频	http://www.baofeng.com/	✖	✖	✖
BiliBili	https://www.bilibili.com/	✖	✖	✖
CCTV	http://www.cctv.com/	✖	✖	✖
看看视频	http://www.kankan.com/	✖	✖	✖
1905视频	http://www.1905.com/	✖	✖	✖

自问自答

Q:怎么保证信息的完整性，不会漏缺
A：一般来说，没有成功入库的原因是在拼凑信息时停滞的，那我们只需要在那之前，将那个ID先储存于数据库，等这个ID的信息成功存于mysql再把那个ID去掉，或改变状态

About

爬取国内各大视频网站(腾讯视频，爱奇艺，乐视视频，芒果TV，bilibili，优酷等)的视频信息（电影，电视剧，纪录片，动漫，等......）

Languages

Language:Python 100.0%