bobosky / douyin

spider douyin, include download douyin video, video information and person information

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

使用说明

本项目以抖音中掌阅科技的一系列公众号作为目标,爬取公众号基本信息,下载公众号视频并提取视频的title、字幕和统计信息

目录介绍
/
​	zhangyue-douyin/
​		data/	 * 统计数据文件夹
​		video/	*视频下载文件夹
​		douyin.py	*爬虫主程序
​		share-url.txt	*公众号链接
​		comments-url.txt	*评论视频链接
​		comment.py	*评论爬虫程序
​	config.bat	*设置虚拟环境并下载依赖package
​	requirements.txt	*依赖package
​	run.bat	*主脚本
操作步骤

1、双击运行config.bat,创建python虚拟项目环境并安装依赖,只需要进行一次即可

2、双击运行run.bat,运行爬虫,每次运行爬虫时运行

PS说明

1、爬取之前,在 ./zhangyue-douyin/share-url.txt文件内,添加想要爬取的公众号的链接,每行一个(链接获取方法为:点开公众号主页,分享,复制分享链接,复制到微信)

2、爬虫爬取视频信息之前都会检查已经存放的视频并在此基础上爬取,因此如果因为某些原因造成爬取结果不完善,可以将data,video文件夹删除后,重新爬取

About

spider douyin, include download douyin video, video information and person information


Languages

Language:Python 99.7%Language:Batchfile 0.3%