DataMiningCase

流失预警模型（二分类），代码原型为本人在某银行做的流失模型，AUC：83%、召回率（覆盖率）：19.4%，精确率：85%（数据是外部数据/代码已脱敏）

基于真实业务上手数据挖掘（银行流失预警）：数据的处理、LightGBM、sklearn包（里面含有：GridSearchCV寻找最优参、StratifiedKFold分层5折切分、train_test_split单次数据切分等）、stacking模型融合、画AUC图、画混淆矩阵图，并输出预测名单。

告诉你：是什么（WHAT）、怎么做(HOW)、为什么这么做(WHY)。

注释覆盖率为80%左右，旨在帮助快速入门，新手级

项目涉及的如下：

商业理解
- 业务需求分析（实战）
数据理解
- 数据质量探查
- 重要特征探查
数据处理（数据准备）
特征工程（数据准备）
建立模型
模型融合
- Stacking模型融合_note版(含简单加权融合)
- Stacking模型融合_py版
模型评估及实验
- 画图
  - Plot/auc_plot（画AUC图）
  - Confusion_matrix/plot_confusion_matrix（画混淆矩阵图）
- 实验模板

数据来源

仅用于测试代码的逻辑，非银行敏感数据。来源：ATEC蚂蚁开发者大赛-支付风险识别数据，赛题的目的是根据历史交易数据识别当前交易是否为欺诈交易。

作者为了快速完成代码测试，将训练集按1:10切分，用1/10作为代码测试的数据集。并且将多分类（0，1，-1），中的-1（未知）通过预测，将高分的一起归到1（风险交易）里。具体可参考：https://blog.csdn.net/weixin_31866177/article/details/93192939

当然这也是猜测，因为作者已经忘记了😢（3年前的事情），通过统计等发现跟这个数据集非常像。

说明

本专题并不用于商业用途，转载请注明本专题地址，如有侵权，请务必邮件通知作者。

本人水平有限，代码搬到外部环境难免有遗漏错误的地方，望不吝赐教，万分感谢。

有代码疑惑的地方也请找我。

Email：909336740@qq.com

PS：如你尝试有效并喜欢，欢迎点赞，如你尝试失败请联系我。

About

基于真实业务上手数据挖掘（银行流失预警）:数据的处理、LightGBM、skLearning包(里面含有：GridSearchCV寻找最优参、StratifiedKFold分层5折切分、_test_Split单次数据切分等)、叠层模型融合、画AUC图、画混淆矩阵图，并输出预测名单。

Languages

Language:Python 100.0%