ben1234560 / DataMiningCase

基于真实业务上手数据挖掘(银行流失预警):数据的处理、LightGBM、skLearning包(里面含有:GridSearchCV寻找最优参、StratifiedKFold分层5折切分、_test_Split单次数据切分等)、叠层模型融合、画AUC图、画混淆矩阵图,并输出预测名单。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

DataMiningCase

Python Versions PyPI Version image

流失预警模型(二分类),代码原型为本人在某银行做的流失模型,AUC:83%、召回率(覆盖率):19.4%,精确率:85%(数据是外部数据/代码已脱敏)

基于真实业务上手数据挖掘(银行流失预警):数据的处理、LightGBM、sklearn包(里面含有:GridSearchCV寻找最优参、StratifiedKFold分层5折切分、train_test_split单次数据切分等)、stacking模型融合、画AUC图、画混淆矩阵图,并输出预测名单。

告诉你:是什么(WHAT)、怎么做(HOW)、为什么这么做(WHY)。

注释覆盖率为80%左右,旨在帮助快速入门,新手级

项目涉及的如下:

数据挖掘流程图

数据来源

仅用于测试代码的逻辑,非银行敏感数据。来源:ATEC蚂蚁开发者大赛-支付风险识别数据,赛题的目的是根据历史交易数据识别当前交易是否为欺诈交易。

作者为了快速完成代码测试,将训练集按1:10切分,用1/10作为代码测试的数据集。并且将多分类(0,1,-1),中的-1(未知)通过预测,将高分的一起归到1(风险交易)里。具体可参考:https://blog.csdn.net/weixin_31866177/article/details/93192939

当然这也是猜测,因为作者已经忘记了😢(3年前的事情),通过统计等发现跟这个数据集非常像。

说明

本专题并不用于商业用途,转载请注明本专题地址,如有侵权,请务必邮件通知作者。

本人水平有限,代码搬到外部环境难免有遗漏错误的地方,望不吝赐教,万分感谢。

有代码疑惑的地方也请找我。

Email:909336740@qq.com

PS:如你尝试有效并喜欢,欢迎点赞,如你尝试失败请联系我。

About

基于真实业务上手数据挖掘(银行流失预警):数据的处理、LightGBM、skLearning包(里面含有:GridSearchCV寻找最优参、StratifiedKFold分层5折切分、_test_Split单次数据切分等)、叠层模型融合、画AUC图、画混淆矩阵图,并输出预测名单。


Languages

Language:Python 100.0%