tianling11025 / dou_ban_spider

A Simple spider that use to crawl the douban Top 100 moive name and input all list

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

#Dou Ban Top 100 Spider

  • douban_spider.py you can use it to get top 100 movie name which is listed by douban website

##1. Install

git clone git@github.com:Andrew-liu/Dou_Ban_Spider.git

##2. Use It simply

$ douban_spider.py
$ threading_douban.py  #多线程爬取豆瓣Top250

##3. Example Output

        ###############################
            一个简单的豆瓣电影前100爬虫
            Author: Andrew_liu
            Version: 0.0.1
            Date: 2014-12-04
        ###############################

豆瓣电影爬虫准备就绪, 准备爬取数据...
Top1 肖申克的救赎
Top2 这个杀手不太冷
Top3 阿甘正传
Top4 霸王别姬
Top5 美丽人生
Top6 海上钢琴师
Top7 辛德勒的名单
Top8 千与千寻
Top9 机器人总动员
...
Top97 驯龙高手
Top98 真爱至上
Top99 致命ID
Top100 超脱
豆瓣爬虫爬取结束...

##4. Something

To Do List :

  • [ ]添加Master/Slave模式, 使爬取数据有序
  • [ ]学习Scapy

Done :

  • [x]实现了简单的多线程爬虫
  • [x]学习了Python中的编码问题

更多详细内容请查看Python-豆瓣电影抓站小结

About

A Simple spider that use to crawl the douban Top 100 moive name and input all list


Languages

Language:Python 100.0%