[TOC]
- 项目说明 :
- 抓取数据:破解登录的滑动验证码和机器人检测 - (机器人检测 还未破解)
- 数据模型转换 爬取的数据字典 转为 数据库映射类的模型
- 入库 存入数据库
- 项目数据库 :
mysql
,当然也可以是其他数据库,只需要更改其config.py
文件中的相关配置。
- 项目源文件介绍:
main.py
- 项目入口文件
models.py
- 数据库实体
db_helper.py
- 数据库操作根
file_helper.py
- 文件操作
config.py
- 项目配置
geetest2
包 - 来自于github 开源项目 破解天眼的滑动验证码
spider.py
- 爬虫程序
viewmodel.py
- 继承自db_helper的BaseModel 根
- 项目运行产生的文件介绍:
senior_people.csv
- 公司高管信息(包含所有维度)
illegals_data.csv
- 公司违规信息(所有维度)
字段名称 |
字段类型 |
字段属性 |
字段注解 |
company_id |
varchar(20) |
主键 |
公司id |
company_name |
varchar(50) |
|
公司名称 |
mod_time |
datetime |
默认值 写入时间 |
修改时间 |
字段名称 |
字段类型 |
字段属性 |
字段注解 |
id |
varchar(20) |
主键 |
id |
name |
varchar(5) |
|
姓名 |
age |
int |
|
年龄 |
sex |
varchar(1) |
|
性别 |
eduaction |
varchar(5) |
|
学历 |
resume |
text |
|
个人简介 |
mod_time |
datetime |
|
修改时间 |
字段名称 |
字段类型 |
字段属性 |
字段注解 |
group_id |
int |
主键 |
分组id |
group_name |
varchar(5) |
|
分组名称-(董事会,监事会,高管) |
字段名称 |
字段类型 |
字段属性 |
字段注解 |
id |
int |
主键,自增 |
主键id |
company_id |
varchar(20) |
外键 |
公司id |
group_id |
int |
外键 |
分组id |
person_id |
varchar(20) |
外键 |
人员id |
position |
varchar(50) |
|
职称描述 |
start_date |
date |
|
任职开始日期 |
end_date |
date |
|
任职结束日期 |
report_date |
date |
|
公告日期 |
mod_time |
datetime |
默认值-写入时间 |
修改时间 |
字段名称 |
字段类型 |
字段属性 |
字段注解 |
id |
int |
主键,自增 |
主键id |
company_id |
varchar(20) |
外键 |
公司id |
person_id |
varchar(20) |
外键 |
人员id |
money |
varchar(10) |
|
薪资金额 |
number_of_shares_with_unit |
varchar(10) |
|
|
mod_time |
datetime |
默认值-写入时间 |
修改时间 |
company_illegals(公司违规处理表)
字段名称 |
字段类型 |
字段属性 |
字段注解 |
id |
int |
主键,自增 |
主键id |
company_id |
varchar(20) |
外键 |
违规公司id |
disposer |
varchar(50) |
外键 |
处理机构 |
default_type |
varchar(10) |
|
违规类型 |
illegal_act_withlink |
text |
|
违规详情 |
punish_type |
varchar(10) |
|
处理类型-(惩罚类型) |
punish_explain_withlink |
text |
|
处理详情 |
punish_object |
varchar(20) |
|
被处理对象 |
announcement_date |
date |
|
公告日期 |
currency_unit |
varchar(10) |
|
涉及金额 |
mod_time |
datetime |
默认值-(写入时间) |
修改时间 |
![tianyanchadb](https://camo.githubusercontent.com/e553b65a733c800b9fc61ba34bd7fe111115b54bff952327a646d2bc20afb9c3/68747470733a2f2f626c6f672e62676c622e776f726b2f696d672f32303231303131343233303735302e706e673f782d6f73732d70726f636573733d7374796c652f626c6f675f696d67)
- 接口:
https://www.tianyancha.com/search/p{}/key='company_name'
- 接口 :
https://www.tianyancha.com/pagination/seniorPeople.xhtml
![image-20210115035817689](https://camo.githubusercontent.com/49397d4766dd09d806869436e7f1a35a2ed6bebe1c669065705380e5153ce5aa/68747470733a2f2f626c6f672e62676c622e776f726b2f696d672f32303231303131353033353831372e706e673f782d6f73732d70726f636573733d7374796c652f626c6f675f696d67)
![image-20210115042149538](https://camo.githubusercontent.com/e393a5da2d5c5d1ad91f2911db54d0f023ac663b4f1c51c1dd443f01e10a22d1/68747470733a2f2f626c6f672e62676c622e776f726b2f696d672f32303231303131353034323134392e706e673f782d6f73732d70726f636573733d7374796c652f626c6f675f696d67)
![image-20210115042322257](https://camo.githubusercontent.com/14cc75a203c9d9b0cd65eb2eb56c8fea6b327cef3e1abe7b8e6dccccddb6d89d/68747470733a2f2f626c6f672e62676c622e776f726b2f696d672f32303231303131353034323332322e706e673f782d6f73732d70726f636573733d7374796c652f626c6f675f696d67)
![image-20210115042339227](https://camo.githubusercontent.com/80bd814e691c32d1ed21ea24fc8b3cbdd876bdbaeda598bb6757689a7e73d7d9/68747470733a2f2f626c6f672e62676c622e776f726b2f696d672f32303231303131353034323333392e706e673f782d6f73732d70726f636573733d7374796c652f626c6f675f696d67)
![image-20210115042355124](https://camo.githubusercontent.com/c9b8e8404032f4118fdce9041ccb04915d18ddc4b3aed1448b3629914c2d8cd0/68747470733a2f2f626c6f672e62676c622e776f726b2f696d672f32303231303131353034323335352e706e673f782d6f73732d70726f636573733d7374796c652f626c6f675f696d67)
![image-20210115042408204](https://camo.githubusercontent.com/5eacd5d9313d41841d89c8025dca87db2df27fc62c66b3163830d4465dd21ed1/68747470733a2f2f626c6f672e62676c622e776f726b2f696d672f32303231303131353034323430382e706e673f782d6f73732d70726f636573733d7374796c652f626c6f675f696d67)
由于时间问题,这块内容未实现,下面只是一些想法
- 数据展示 : 用现在的数据可视化技术(python 数据分析)(js
echart.js
图表库)比如可以做一个 公司高管薪资水平图表
- 数据挖掘 :处理分析公司的违规信息,做简单的公司风险预测(还没有尝试过)
本项目仅仅只用与面试(某面试)若用于其他用途,请自行承担相关责任!!