lianjia_loupan

This scrapy project is used to crawl the house information on chain home websites. https://bj.fang.lianjia.com/loupan/

分析网页链接

链家网站上有很多个城市，查看了个城市的网页链接发现有些城市是简写，有些是全称，如下图所示：

对于有些城市的楼盘信息较多，不只一页，因此分析需要翻页。总页数可以通过div标签中的data-total-count属性提取，该数字除以每页的总条数10并向上取整即为总页数。

进入楼盘的一级详情页可以看到很多的相关楼盘信息，点击“楼盘详情”下面的“查看更多”可以进入二级详情页面，此页的楼盘详情比一级页面多几个，因此我们提取此处的信息。链接为一级页面的信息加“/xiangqing/”

楼盘可以提取的字段信息如下图所示：

用scrapy框架爬取链家网站上的楼盘信息

Language:Python 100.0%