数据科学与大数据--python入门与爬虫
- 设置每次爬取停歇间隔较长一些
- 不用登陆的方式爬取,爬取非登录状态下的最多评论即可
- 爬取豆瓣动漫类电影/电视剧评论及相关实体内容
- 获取url池
- 爬取信息
- 存储信息
- 豆瓣动漫类电影
- 关键在于获取js的动态加载内容
- 防止ip被封,可以使用代理
- 每爬一次使用time.sleep()
- 评论内容(comment_content)
- 评论星级(comment_star)
- 评论人id(comment_id)
- 评论时间(comment_time)
- 评论点赞数(comment_votes)
pip/anaconda + requirements.txt + 安装mysql/mongo/mongo云(三选一)
或者
docker环境
docker-compose up -d
docker exec -it xxx bash (xxx 为python的container id)
请根据下面的链接和提示进行进行相关安装和注册做好课前准备 👍
-
- 安装
-
- 确认自己有可用的微软账号
-
- 注册账户
-
- 安装
-
- 安装插件python
- 安装插件docker
- 安装插件Remote Development
-
- 选安装
- win10 + 打开hyper-v 才能在win环境中使用
- Linux or MAC 直接安装即可
- linux用户在本rep下
-
chmod +x docker.sh ./docker.sh