JA1lE1 / DataScienceCourse

数据科学与大数据--python入门与爬虫

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

DataScienceCourse

数据科学与大数据--python入门与爬虫

防ip被封

  • 设置每次爬取停歇间隔较长一些
  • 不用登陆的方式爬取,爬取非登录状态下的最多评论即可

课后作业

题目

  • 爬取豆瓣动漫类电影/电视剧评论及相关实体内容

步骤

  • 获取url池
  • 爬取信息
  • 存储信息

url池来源

提醒

  • 防止ip被封,可以使用代理
  • 每爬一次使用time.sleep()

爬取实体

  • 评论内容(comment_content)
  • 评论星级(comment_star)
  • 评论人id(comment_id)
  • 评论时间(comment_time)
  • 评论点赞数(comment_votes)

作业环境

pip/anaconda + requirements.txt + 安装mysql/mongo/mongo云(三选一)
或者
docker环境

实验报告

docker(如果选择docker作为环境)

docker-compose up -d
docker exec -it xxx bash (xxx 为python的container id)

课前准备 🔥

请根据下面的链接和提示进行进行相关安装和注册做好课前准备 👍

  • Chrome

    • 安装
  • Microsoft Azure Notebook

    • 确认自己有可用的微软账号
  • mongoDb Altas 注册账号

    • 注册账户
  • Anaconda

    • 安装
  • python 3.6.8

    • 选择自定义的安装方式
    • img
    • img
    • 如果出现跳转商店
      • 打开应用执行别名关掉应用安装程序
      • img
    • check 在终端中python 命令可行
  • vscode

    • 安装插件python
    • 安装插件docker
    • 安装插件Remote Development
  • docker

    • 选安装
    • win10 + 打开hyper-v 才能在win环境中使用
    • Linux or MAC 直接安装即可
      • linux用户在本rep下
      •   chmod +x docker.sh
          ./docker.sh

课堂内容

About

数据科学与大数据--python入门与爬虫


Languages

Language:Jupyter Notebook 99.6%Language:Shell 0.4%