alextooter / how-to-recoginize-zombie-enterprises

2019年服务外包大赛A09题,识别僵尸企业,赛题给出四个文件的数据——基本信息表、专利表、年报表、财报表,并要求参赛选手根据四张表里的数据对企业进行分析,识别僵尸企业。本项目最终识别僵尸企业准确率达99%,最终获国家二等奖

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

predict_data.py是主文件,内容如下:
	1. 最外层套了一个predict(base_root,money_report_root,year_report_root,paient_information_root)函数,
	该函数有四个传入参数,分别是四个文件的路径。调用这个函数后可以直接生成预测的flag文件——result.csv。

	2.predict函数中的功能:
		2.1 调用merge_data文件实现将四个表进行预处理并连接四张表。
		2.2 做特征工程,生成新特征对应的数据
		2.3 加载verify_catboost模型,对数据进行预测
		2.4生成预测结果(生成result.csv)
		
第一次上传的三个文件只包含最终的数据处理方式,包括全部的数据预处理、特征工程的结果(特征经特征组合之后再特征筛选之后的结果)、训练好的CatBoost模型(可以直接调用并进行预测),并不包括如何进行的特征工程以及特征筛选,也不包括训练CatBoost模型的代码

About

2019年服务外包大赛A09题,识别僵尸企业,赛题给出四个文件的数据——基本信息表、专利表、年报表、财报表,并要求参赛选手根据四张表里的数据对企业进行分析,识别僵尸企业。本项目最终识别僵尸企业准确率达99%,最终获国家二等奖


Languages

Language:Python 100.0%