benfusion / Web_Crawler_Python3

用python3制作的网络爬虫(爬取豆瓣电影的电影信息)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Web_Crawler_Python3

用python3制作的网络爬虫(爬取 豆瓣电影 的电影信息)

运行环境:

python 3.3+

使用说明:

  1. 安装 Mongodb

  2. 安装库

    $ pip install -r requirements.txt
  3. 运行daemon.py:

    $ python daemon.py start

其他:

  1. 结束程序:

    $ python daemon.py stop
  2. 结束程序,删除数据库中所有数据及日志文件:

    $ python daemon.py clean
  3. 查看运行日志:

    $ tail -f /tmp/daemon.log
  4. 查看进程pid:

    $ tail -f /tmp/daemon.pid
  5. 查看错误日志:

    $ tail -f /tmp/daemon.err

更新日志

V 1.1

  • bug修复
  • 发生异常退出时将内存中的url存入数据库
  • 加入clean命令

V 1.0

  • 数据库更换为mongodb
  • 异常处理更完善
  • 内存占用优化
  • 后台运行

V 0.1 alpha

  • urllib更换为第三方库responses
  • 加入了http分析器BeautifulSoup的支持
  • 数据被存到mysql

V 0.0 alpha

  • 可以下载电影页面并保存到data文件夹

About

用python3制作的网络爬虫(爬取豆瓣电影的电影信息)


Languages

Language:Python 100.0%