JustDoIt0910/sh_house_analysis

项目结构简介

spider - 爬虫脚本，负责爬取链家网二手房数据
- conf - 项目的全局配置, config.yaml 里定义爬取过程中的 url 地址和自己的用户名密码
- cities.py - 爬取每个城市对应子域名
- cas - cas模拟登录模块，链家的二手房成交信息需要登录才能获取。其采用cas单点登录，密码使用 rsa2 和 rsa 加密隔天轮换
- utils - 工具包，包含从 UA 池中获取随机 User-Agent 的方法，操作数据库的方法。
- spider.py - 爬虫主文件，根据城市，地区爬取相应数据, 存入mysql
- UA.txt - UA 池，反反爬
- sql/table.sql - 建表脚本
sh_house_backend - 系统后端
sh_house_frontend - 系统前端(可视化部分)
- static - 静态图片，资源和使用 pyecharts 动态绘制出的可视化图
- template - 模板
- app.py - app
- draw.py - 各种画图函数