quanxing / crawl

crawl with python BeautifulSoup

#爬取安居客房价 ####为将来自己找房子提供便利

###程序架构

class Spiders
- getInfo()
  - get_firstpage_info()
    - getGeo()
    - get_detail_page()
    - get_AvgArea()
- getDistance()
  - getDisTimeJson()
- titleFile()
- main
  - getInfo()
  - titleFile()
  - getDistance()

###程序说明

getInfo() 函数是爬取房价的核心函数
1. 获取下一页楼盘的nextURL
2. 并调用get_firstpage_info()
get_firstpage_info() 主要用来爬取当前页楼盘的各个基础属性信息，例如楼盘名称，价格，位置，户型等信息。它调用了get_detail_page()方法，getGeo()方法和get_AvgArea()方法
get_detail_page()方法主要用来得到 '开发商','开盘时间'等楼盘的信息，再调用了get_AvgArea()方法
get_AvgArea()主要计算具体楼盘每个户型的平均面积
getGeo()主要实现地址到百度坐标的转换
titleFile()方法实现为结果文件showInfo.csv添加列名
getDistance()借助getDisTimeJson()方法实现了所有楼盘距离目的地的通勤距离，时间，公交路线信息

###TIPS

###http://lbsyun.baidu.com/index.php?title=webapi

###Forward

###准备拿到这些数据利用pandas进行简要分析，从单房价，总房价，区域位置，交通状况等信息综合挑选出合适的楼盘

##这个anjuke.ipynb文件是数据分析的简要代码，注意执行jupyter notebook时，路径设置为自己的就行。

About

crawl with python BeautifulSoup

Languages

Language:Jupyter Notebook 92.8%Language:Python 7.2%