poundhu / dataAnalyse

SPSS数据分析、挖掘

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

SPSS数据分析

目录

一、数据分析

近年来计算机技术的飞速发展,数据库技术使许多行业出现了业务系统,自动积累了海量业务数据,相应地诞生了新的分析需求。同时人工智能和计算能力的发展催生了全新的分析方法,即数据挖掘。

1、数据挖掘步骤

数据挖掘过程包括下面6个步骤,过程是循环往复的探索过程。

  • 商业理解:完成对商业问题的界定,确定商业目标、数据挖掘目标、制定项目计划
  • 数据理解:完成对企业数据资源的认识和清理
  • 数据准备:完成在建立数据挖掘模型之前对数据的准备工作,模型要求的数据是生成一张二维表
  • 建立模型:模型可分数据描述和汇总、细分、概念描述、分类、预测和相关性分析等
  • 模型评估:评估产生的数据挖掘模型,从中筛选出被认可的数据挖掘模型
  • 结果部署:运用数据挖掘结果解决现实商业问题的过程,生成最终的数据挖掘报告

2、数据分析方法

  • 数据统计描述与参数估计:有集中趋势、离散趋势、分布特征等
  • 常用假设检验方法:小概率假设检验、单变量假设检验、双变量假设检验等
  • 多变量模型:考察各自变量对因变量的作用强弱,最终对因变量取值进行预测的统计模型
  1. 方差分析/一般线性模型
  2. 广义线性模型和混合线性模型
  3. 回归模型
  4. 生存分析模型、对数线性模型、时间序列模型
  • 多元统计分析模型:是在模型中难以区分自变量、因变量,这些模型分析重点是探讨各变量的内在关联或对其进行分类
  • 智能统计分析:主要应用地数据挖掘领域
  1. 树模型:也是决策树,有分类树和回归树,statistics中,在“分类”->“树”中实现树模型
  2. 神经网络:是一种模仿动物神经网络行为特征,进行分布式并行信息处理的数学模型。容易产生过度拟合,在“分析”->“神经网络”中实现
  3. 支持向量机(SVM):是功能强大会的分类和回归技术,可最大化模型的预测准备度。适用于分析预测变量字段非常多的数据
  4. 贝叶斯网络:信度网络,对解决复杂设备不确定性质和关联性引起的故障有优势,是不确认知识表达和推理领域最有效的理论模型之一
  5. 最近邻元素分析:是根据观测值与其他观测值的类似程度分类个案的方法,statistics中,在“分类”->“最近邻元素”中实现
  6. 关联规则与序列分析:关联规则主要应用于零售业的购物分析,序列分析是关联规则中的一类特殊形式,常用来发掘老客户的潜在购买需求

二、信用风险评分

信用评分卡是离散变量预测问题,用来对银行贷款的风险水平进行评估,得到易于被非统计专业背景的业务人员所理解的模型。

1、案例背景

  • 不是每个客户都能得到银行的贷款,银行会先考察客户的信用,再决定是否发放信用卡、以及卡片类型(普卡、金卡、钻石卡)和额度。
  • 信用评分是使用统计模型的方法来对潜在客户和已有客户在贷款(或申请信用卡)时的风险通过评分卡的方式进行评价的一种方法。该模型被广泛用在欺诈评分、市场响应评分等诸多领域
  • 信用评分卡建立可以帮助银行一线人员进行多种决策,如
  1. 是否同意某笔贷款的发放
  2. 是否同意个人的信用卡申请及发放何种类型的信用卡
  3. 是否同意客户关于提高信用卡透支额度的申请
  4. 当客户的信用卡发生延期还款时,催讨策略如何

2、商业理解

  • 将小额贷款风险问题转化为数据分析问题:小额贷款风险的问题可理解为一个有目标变量的预测问题,目标变量为是否违约,即根据信贷账户的属性及表现来预测信贷账户是否有违约风险。(二分变量的预测问题)
  • 获取数据:信用评分可分为申请评分与行为评分。
  1. 申请评分的数据来源主要是信贷申请人申请贷款(或信用卡)时提填的资料。
  2. 行为评分除了可以获取贷款人申请时提交的资料,还可以从系统中提取大量关于贷款人的资金使用、消费以及还款情况等数据
  • 建立一个还是多个模型问题:在银行,针对同样的群体有很多产品。针对同样的产品,也会面向特征有显著差别的不同群体,所以应该建立多个模型

3、数据理解与准备

  • 在信贷数据中,违约客户一般所占比例较少。在选取建模数据时,可以采取分层抽样的方法来构成建模样本。在建立信用评分模型时,可根据业务的需要对若干关键变量通过分层控制,使建模数据更具有代表性。
    本实例使用的建模数据,包括11个变量,其中包括9个预测输入变量(自变量)、一个预测目标变量(因变量)和一个代表抽样权重的权重变量。
    自变量(年龄、收入、孩子数量、家庭人口数、现住址时间、现工作时间、住房类型、国籍、信用卡类别),因变量(是否违约),权重(从总体抽取的数据,体现了总体数据中是否违约客户的比例)
    观察数据发现孩子数量、家庭人口数之间相关性可能很强,经过计算相关系数,可达到0.95,在建模时,只保留一个变量即可,这里选择保留孩子数量变量。

4、建立模型与评估

  • 在IBM SPSS Modeler中,没有一个单一节点可以完成信用评分的建模工作,可用多个数据流组合的方式来构建信用评分模型
  1. 对输入变量分箱:包含连续变量和离散变量的分箱,分箱是和具体业务问题结合紧密的工作,通过计算各种统计量,并据此判断变量对预测目标变量是否重要以及分箱是否合理。
    分箱
  2. 建立输入变量与目标变量的Logistic回归模型:在使用Logistic回归进行预测时,除了可以选择让全部变量进入模型之外,也可以让模型选择最终进入模型的变量。
  3. 根据业务参数将Logistic回归模型转化为评分模型
  4. 对模型效果进行检验:对信用评分结果的模型验证,主要验证是否信用评分较低的客户群中违约客户的比例明显高于信用评分较高的客户群。如用K-S指标法检验目标变量为标志变量的预测模型,验证模型的优劣
  • 在建立申请信用评分卡时,通常还进行拒绝推断来对模型进行调整,使模型的适合范围扩大到全部申请人,而不仅仅是成功申请贷款的客户

5、模型监控

  • 跟踪模型应用时的客户群体是否与建立模型的客户群体发生了较大的变化。从变量的分布及所有客户的评分分布是否有显著变化来衡量,可以生成客户稳定性报表、评分分布报表等来对分布情况进行监控。
  • 对模型应用的效果进行评估,即使用多种模型评估方式(如K-S指标)来评价模型是否在实践中能够有效地区分客户的未来信贷表现的好与坏
    有需要建模数据的可私下联系我 245130833@qq.com
    建模数据
    数据流

三、客户流失分析

1、案例背景

  • **电信开始是一个垄断企业,随着经济和科技的发展,行业从垄断走向竞争,企业竞争加剧了。如何把客户拉过来并且挽留成为企业的工作重点,也使得客户流失成为众多企业的关注之一
  • 如何在客户即将流失之前有效发现他们,并对其特征进行刻画,从而帮助营销部门确定客户挽留市场活动的目标客户确户群以及合适的营销方案

2、商业理解

  • 预测哪些客户(尤其是高价值客户)可能会流失
  • 可能流失客户的特征是什么
  • 市场挽留活动的预计收益是多少

3、数据理解与准备

  • 本案例准备了客户基本信息表、客户通话情况表、话费方案表、客户是否流失标记表
  • 为了下一步建模便利,对数据进行各种变换或者生成相关的衍生变量(单变量变换、衍生变量、趋势类指标、波动类指标)
  1. 将客户6个月的各类通话行为数据进行月度汇总,生成若干汇总变量,这些变量体现了客户通话行为的绝对值状况
  2. 生成若干比例指标和强度相对指标,用来反映客户通话情况的相对值状况
  3. 生成若干反映客户话费状况的指标,反映了客户选择的话费方案是否与客户的实际消费状况相匹配

4、建立模型与评估

  • 模型选择:在IBM SPSS Modeler中,有预测类模型、细分类模型和关联规则模型等
  • 聚类:适用于客户价值较低的客户群,使用客户的属性变量和行为变量对客户进行聚类分析,分析各个群组的流失率情况,找出若干流失率较高的群组,并分析刻画它们的特征,以更业务人员制定针对性的营销策略
  • 用决策树生成规则集:可以得到高价值客户流失的典型特征,业务人员通过对这些典型特征的分析,可以获取客户挽留的思路,从而制定出针对高价值客户进行挽留的若干可行方案
  • 用神经网络生成流失评分:可以预测客户的流失倾向评分,这样针对每个客户我们最终都会给出流失倾向的评分结果

5、模型应用及营销预演

  • 通过建立的电信业务流失分析的数据挖掘模型,可以一些结果交给市场营销部的同事
  1. 对于低价值的客户可以给出分群结果,并对流失可能性较高的群组给出特征刻画(主要由聚类模型得到)
  2. 对于高价值的客户可以给出若干流失规则,即流失前的客户特征,帮助市场营销部的同事根据这些特征采取若干针对性措施(主要由决策树模型得到)
  3. 可以给出高价值客户的流失可能性评分,这样市场营销部的同事可以对流失可能性较高的客户给予更多的关注,设计合适的挽留活动进行挽留(主要由神经网络模型得到)
  • 市场营销部的同事根据提交的结果申请预算,设计市场营销活动。按照流失评分来说,应该向流失评分大于多少的客户进行挽留?这部分客户占总体客户的比例是多少?
  • SPSS Modeler可以通过构建数据流对挽留活动进行营销预演的方式解决上面的问题。在数据流中引入了响应比例、营销活动、折扣三个参数
  • 从数据流可以得到营销预演报告,包括营销预演参数、营销活动预演结果数据和营销活动实施客户名单
  • 总结:可以解决类似的问题包括
  1. 客户获取问题,目标变量是客户是否接受促销。该应用在直邮或者电话营销确定目标客户群时尤其常用
  2. 欺诈问题,目标变量是客户是否存在欺诈现象。典型应用包括如何有效地发现信用卡欺诈、保险欺诈、偷漏税欺诈等
  3. 交叉销售问题,目标变量是已有客户是否会购买特定的产品。该应用尤其适用于产品或服务品类较多的企业,通过数据挖掘的手段可以实现基于历史数据的智能产品推荐系统
    有需要数据和数据流的可私下联系我 245130833@qq.com
    数据流
    建模数据
    数据流

四、欺诈发现

1、案例背景

  • 欺诈现象存在于各行各业,给正常的经济和生活秩序造成极大的危害,典型的欺诈表现有
  1. 银行业中的伪造银行卡、办理多张信用卡消费不还钱、信用卡现套等
  2. 证券业中存在的关联交易
  3. 企业偷逃税给税收的公开性造成了极大的困扰
  4. 电信业中服务提供商的欺诈性收费
  5. 保险行业中的虚假索赔
  • 本篇主要学习医疗保险欺诈发现的案例

2、商业理解

  • 索赔金额不合理
  • 医疗保健机构针对同一投保人、同一时间段的重复索赔
  • 在一段时间内同一投保人异常大的索赔
  • 医疗保健机构针对一批投保人异常大的索赔
  • 医疗保健机构间“共享”投保人信息进行索赔
  • 医疗保健机构采用不合理的医疗处理过程以达到增加索赔客的目的

3、数据理解与准备

  • 本案例准备了3个数据集,投保人信息表、医疗保健机构信息表、索赔信息表
  • 在对可用数据源进行梳理外,还需对各项数据的分布状况进行查看,加深理解数据,为建模提供思路
  1. 投保人的分布特征:老年保障险和伤残险的投险人年龄分布差异
  2. 医疗保健机构类别的分布特征
  3. 金额、住院时长之间的关联:账单金额、保费覆盖额、支付金额的相关性

4、建立模型与发布

  • 模型1:变量对比发现疑似欺诈
  1. 支付金额应小于账单金额,如果违反了则可视为疑似欺诈
  2. 某医疗保健机构在同一段时间内为一个病人反复索赔次数过多,则可视为是疑似欺诈
  3. 某一医疗机构的月度索赔支付笔数或索赔支付金额大幅增加,则需要进一步审查确定是否有欺诈现象存在
  • 模型2:通过Benford定律发现疑似欺诈,Benford定律广泛用于审计、欺诈发现等领域
  • 模型3:通过对投保人细分发现疑似欺诈
  • 模型4:发现医疗保健机构行为模式异常
  • 模型5:使用关联规则发现多个医保机构共用投保人信息
  • 模型6:发现异常诊断与处理过程
  • 发布:通过上面的6个模型,将这些疑点汇总起来提交给欺诈审核人员,通过数据流实现
    有需要数据和数据流的可私下联系我 245130833@qq.com
    数据流
    建模数据
    数据流

About

SPSS数据分析、挖掘