oillamp / crawlerQunar

2013年4月:一个爬行去哪儿网(qunar.com)数据的爬虫脚本。提供了一种爬行AJAX类型网站数据的方法。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

crawlerQunar.py

	功能:一个爬行去哪儿网(qunar.com)数据的爬虫脚本。
	原理:构造http请求模拟该网站的AJAX通信机制(异步刷新时只传递数据)获取json格式的纯数据。
	优点:爬行的数据是结构化的数据,使用方便。
	运行环境依赖说明:
		1、当前的数据存储依赖于MongoDB数据,当前的设置爬行完后大概是20万条数据,去掉限制后大概有200万条数据;
		2、在 Ubuntu linux 下开发。

About

2013年4月:一个爬行去哪儿网(qunar.com)数据的爬虫脚本。提供了一种爬行AJAX类型网站数据的方法。


Languages

Language:Python 100.0%