摘要
本文主要介绍了信贷模型域中的申请评分卡模型。首先阐述了信用违约风险的概念、典型场景、分类以及衡量与管理方法。接着详细介绍了申请评分卡的重要性、定义、特征、现实应用场景以及流程。然后深入探讨了申请评分卡模型的入参问题,包括非平衡样本问题。在特征工程方面,详细讲解了构建信用风险类型的特征、特征的分箱、WOE编码、特征信息度的计算以及单变量/多变量分析。在模型算法选择上,介绍了逻辑回归、决策树及其扩展、随机森林/GBDT/XGBoost、神经网络等常见算法。最后,阐述了申请评分卡模型的评价标准,包括模型的区分度、准确度、稳定性以及从概率到分数的转换,并对相关问题进行了思考。
1. 申请评分卡模型介绍
信用违约风险(Credit Default Risk)是金融领域中最核心的风险类型之一,指交易对手或债务人无法按照合同约定履行其义务(如还本付息、支付款项等),从而导致债权人(或合约持有方)遭受损失的可能性。这一风险广泛存在于债券投资、贷款发放、衍生品交易(如信用违约互换CDS)、贸易融资等各类金融活动中。
1.1. 信用违约风险的典型场景
信用违约风险主要出现在以下场景中:
- 债券市场:企业或政府发行的债券(如公司债、企业债、主权债)若发行人因经营恶化、现金流断裂等原因无法按时支付利息或本金,即构成债券违约(如2021年中国永煤债违约、2008年美国雷曼兄弟债务违约)。
- 贷款业务:银行向企业或个人发放贷款后,借款人因失业、破产、行业衰退等原因无法按期偿还本息(如个人房贷断供、企业经营贷逾期)。
- 衍生品交易:例如信用违约互换(CDS)中,若参考实体(如某企业)发生违约,CDS卖方需按约定向买方赔偿损失;其他场外衍生品(如利率互换、互换期权)也可能因交易对手违约导致损失。
- 贸易融资:如信用证结算中,若开证行因自身危机无法履行付款承诺,受益人可能面临货款损失。
1.2. 信用违约风险分类
- 个体违约风险:单个借款人不还款。
- 系统性违约风险:大规模企业或个人集中违约,比如经济危机期间。
- 主权信用风险:国家政府债务违约(如阿根廷债务危机)。
1.3. 信用违约风险的衡量与管理
信用违约风险特征
- 结果严重:一旦违约,金融机构面临损失,可能影响现金流与资本充足率。
- 难以完全避免:再好的风控也无法做到零违约,只能控制在合理范围。
- 与经济周期相关性强:经济下行时,违约率往往上升。
衡量指标
- 违约概率(PD, Probability of Default) :借款人违约的可能性。
- 违约损失率(LGD, Loss Given Default) :违约时损失的比例。
- 违约敞口(EAD, Exposure at Default) :违约时银行对借款人的风险暴露金额。
- 预期损失(EL = PD × LGD × EAD) :银行通常用这个来定价。
管理方法
- 准入控制:通过信用评分、征信、财务报表审查等评估借款人资质。
- 风险定价:高风险客户利率更高,抵补潜在损失。
- 担保/抵押:降低损失率。
- 分散化:控制行业集中度、区域集中度。
- 监控与预警:贷中行为监测、异常交易检测。
- 催收与不良处置:贷后通过催收、资产处置降低损失。
2. 申请评分卡的重要性与特征
2.1. 申请评分卡的定义
申请评分卡 是在 客户申请贷款/信用卡/分期产品时,金融机构对客户进行量化信用风险评估的模型工具。
- 它的输出通常是一个 分数(Score) ,表示客户违约概率的大小。
- 金融机构会根据分数设定阈值(cut-off),来决定 通过、拒绝、人工复核 等审批结果。
贷前准入的第一道防线: 在放款前就能筛掉高风险客户,避免坏账进入资产池。
提升审批效率: 大部分客户通过自动化评分即可完成审批,减少人工审核成本。
风险可量化: 把模糊的“信用好坏”转化为数字分数,便于风控、定价和监管报告。
策略灵活: 可以结合额度授予、利率定价策略,不同分数段匹配不同业务政策。
监管合规要求: 巴塞尔协议等监管框架要求金融机构具备可解释的信用风险量化工具。
2.2. 申请评分卡特征
- 基于统计/机器学习方法构建
-
- 传统上采用 Logistic 回归,特征可解释性强。
- 现在也有使用 GBDT、XGBoost 等,但仍需保证可解释性。
- 分数与违约概率映射
-
- 模型分数可以映射到客户的 违约概率 (PD) ,与风险定价相结合。
- 变量来源多样
-
- 个人信息(年龄、婚姻、学历)
- 财务状况(收入、负债、房产)
- 信用历史(征信报告、借贷记录)
- 行为特征(申请设备、渠道、地理位置)
- 稳定性要求高
-
- 模型需在不同经济周期、不同客户群中保持有效。
- 需定期监控模型稳定性(PSI、KS 值、AUC 等)。
- 简单可解释
-
- 与复杂的黑箱模型相比,申请评分卡强调可解释性,方便审批人员理解和监管部门审查。
- 直观的分数卡形式
-
- 通过分箱(binning)、WOE 转换,把变量转化为分值累加,最终形成总分。
- 通常会设定基准分(如 600 分)+ 每提升/下降一定分数对应风险倍数。
2.3. 现实应用场景
- 信用卡审批:客户申请信用卡时,银行根据申请评分卡快速判断是否发卡。
- 消费分期贷款:互联网金融公司依据评分卡判断授信额度。
- 小微贷款:通过评分卡判断是否给予经营性贷款。
2.4. 信达申请评分卡流程
3. 申请评分卡模型入参
3.1. 申请评分卡模型入参
注意:入参必须是 申请时刻可获得 的,不能用未来信息。很多持牌金融机构会把特征分成 四大类:
- 申请信息(Application Data)
- 征信信息(Credit Bureau Data)
- 内部行为数据(Internal Behavior Data)
- 外部替代数据(Alternative Data)
| 类别 | 具体特征举例 |
|---|---|
| 基本信息(Demographic) | 年龄、性别、婚姻状况、学历、户籍性质、工作年限、职业类型、居住年限、居住性质(自有/租房/宿舍)、联系方式有效性 |
| 收入与财务(Financial) | 月收入、家庭收入、资产情况(房/车)、负债收入比(DTI)、还款能力指数 |
| 负债信息(Indebtedness) | 在本机构负债余额、在他行/他司负债余额、授信使用率、信用卡数量及额度、贷款笔数、月还款额占收入比例 |
| 消费能力与消费行为(Consumption) | 电商消费金额、奢侈品消费、出境旅游次数、近6个月平均消费水平、消费多样性(品类数)、分期付款使用情况 |
| 信用历史(Credit History) | 首次信贷时间、账户开立数量、征信查询次数(1个月/6个月)、历史逾期次数、最大逾期天数、近12个月逾期金额、M1/M3/M6逾期情况 |
| 支付与还款行为(Repayment) | 历史还款率(实还/应还)、最低还款习惯、提前还款行为、是否出现展期/延期 |
| 新兴数据(Alternative Data) | 通讯行为(通话次数/频次、联系人数量)、出行行为(出行半径、是否频繁异地)、社交网络足迹、线上支付行为(移动支付、理财产品使用)、水电燃气缴费规律 |
| 不良/司法信息(Negative Records) | 是否在黑名单、失信人名单、法院执行记录、仲裁记录、违章记录 |
| 其他补充(Device & Behavior) | 设备指纹、IP地址稳定性、登录习惯、申请渠道(线上/线下)、申请时间(工作日/节假日/深夜)、多次申请行为 |
- 核心必备:基本信息 + 收入/负债 + 信用历史
- 增强区分度:消费行为 + 支付习惯 + 新兴数据
- 风险防控:司法黑名单 + 行为异常(设备/IP/申请时间)
3.2. 非平衡样本问题
“非平衡样本问题(Imbalanced Data Problem)” 在信贷评分卡、欺诈检测、风控模型中非常常见,因为违约样本/欺诈样本通常占比很低。
3.2.1. 非平衡样本问题定义(Definition)
非平衡样本:指分类问题中不同类别的样本比例差异非常大。
- 例如:在贷款申请中,好客户占 95%,坏客户占 5% 。
- 如果直接建模,模型可能倾向于预测所有客户为“好客户”,虽然准确率很高(95%),但对坏客户的识别能力极差。
典型场景
- 信贷违约预测(违约率低)
- 交易欺诈检测(欺诈交易占比极低)
- 疾病诊断(罕见病数据极少)
为什么会有问题
- 模型偏向多数类:机器学习算法会以整体准确率为目标,忽视少数类。
- 评价指标失真:准确率高,但召回率、KS、AUC表现差。
- 少数类学习不足:模型可能学不到坏样本的模式,导致风控漏判。
3.2.2. 解决方法(Solutions)
| 层面 | 方法 | 优缺点 |
|---|---|---|
| 数据层 | 欠采样、过采样(SMOTE)、混合采样 | 简单直观,但可能丢失信息或过拟合 |
| 算法层 | 类权重调整、代价敏感学习、阈值调整、集成学习 | 不改变样本分布,更贴近实际,但模型复杂 |
| 指标层 | AUC、KS、F1、Precision/Recall、PR曲线 | 真实反映少数类预测效果 |
数据层面的方法:目标:调整样本分布,增加少数类代表性。
- 欠采样(Under-sampling)
-
- 从多数类样本中随机抽取子集,使好坏样本比例更平衡。
- 缺点:可能丢失有价值的信息。
- 过采样(Over-sampling)
-
- 增加少数类样本数量,最常见方法是 SMOTE(Synthetic Minority Over-sampling Technique) 。
- 原理:在少数类样本之间插值,生成合成样本。
- 缺点:可能引入噪声、过拟合。
- 混合采样(Hybrid Sampling)
-
- 同时对多数类欠采样、少数类过采样。
- 分层抽样(Stratified Sampling)
-
- 保证训练集/测试集的类别比例一致,避免测试集没有坏样本。
3.2.3. 算法层面的方法
目标:在建模过程中提升少数类的权重。
- 代价敏感学习(Cost-sensitive Learning)
-
- 给少数类样本更高的惩罚权重。
- 逻辑回归 / XGBoost / LightGBM 等模型中,可以通过
class_weight或者参数调整实现。
- 阈值调整(Threshold Moving)
-
- 模型输出是概率,通常默认 0.5 为分类阈值。
- 可以降低阈值,比如设定 0.3,让更多少数类样本被识别。
- 集成学习方法
-
- Bagging/Boosting(如 XGBoost、LightGBM 本身对少数类较敏感)。
- Balanced Random Forest:在每棵树训练时随机欠采样多数类。
3.2.4. 评价指标的改进
在非平衡样本场景下,准确率(Accuracy)不适用,应采用以下指标:
- AUC(ROC曲线下面积)
- KS值(区分好坏样本能力)
- F1-score(Precision 和 Recall 的调和平均)
- 召回率(Recall) :对少数类的识别能力
- 精确率(Precision) :少数类预测结果的准确性
- PR曲线(Precision-Recall Curve) :在极度不平衡场景比 ROC 更有意义。
4. 申请评分卡模型的特征工程
4.1. 构建信用风险类型的特征
| 问题 | 典型表现 | 处理方法 |
|---|---|---|
| 缺失值 | 收入/学历缺失 | 均值/中位数填充、缺失分箱 |
| 异常值 | 年龄<18、收入极高 | 逻辑剔除、分位数截断、单独分箱 |
| 类别变量 | 婚姻=已婚/未婚/离异 | WOE编码、One-hot编码 |
| 数值尺度不一 | 收入 vs 查询次数 | WOE规整、标准化 |
| 样本不平衡 | 坏样本少 | 欠采样/过采样、class_weight |
| 多重共线性 | 收入 vs DTI | VIF检验、剔除冗余变量 |
| 时间穿越 | 使用未来状态数据 | 严格定义观察窗口 |
| 特征稳定性 | PSI>0.25 | 删除/调整特征 |
4.1.1. 信用风险模型的特征类型
通常分为以下几大类(在你之前总结的基础上再细化):
- 人口学特征(Demographics)
-
- 年龄、性别、婚姻、学历、工作年限、居住年限、居住性质
- 财务与收入特征(Financial)
-
- 月收入、资产(房产/车产)、负债率(DTI)、月还款额/收入比
- 信用历史(Credit Bureau / Internal History)
-
- 信贷账户数、贷款余额、授信额度使用率
- 历史逾期次数、最大逾期天数、M1/M3+逾期率
- 征信查询次数(1个月/6个月/12个月)
- 消费与交易行为(Consumption & Transaction)
-
- 信用卡消费金额、分期付款次数
- 电商购物、奢侈品消费、旅游出行频率
- 支付习惯(水电燃气缴费规律、移动支付)
- 不良与司法信息(Negative Records)
-
- 黑名单、失信人名单、法院执行、仲裁记录
- 新兴替代数据(Alternative Data)
-
- 通讯数据(联系人数量、通话频率)
- 出行行为(出行半径、是否频繁异地)
- 社交网络足迹
- 设备/IP稳定性、申请渠道、申请时间(深夜/工作日/节假日)
4.1.2. 数据预处理常见问题(Problems)
- 缺失值(Missing Values)
-
- 收入、婚姻、学历可能缺失
- 外部数据(如征信、司法信息)可能不完整
- 异常值(Outliers)
-
- 年龄 < 18 或 > 80
- 收入极端高值(百万级工资)
- 查询次数上千
- 类别特征(Categorical Variables)
-
- 婚姻状况、学历、职业等非数值化字段
- 数值尺度不一(Scaling Issue)
-
- 收入(万元级别)、负债率(百分比)、查询次数(个位数)差异较大
- 不平衡分布(Imbalanced Distribution)
-
- 好坏样本比例差异大(好客户95%,坏客户5%)
- 多重共线性(Multicollinearity)
-
- 总授信额度 vs 授信使用率
- 月收入 vs 负债率(相关性强)
- 时间穿越(Data Leakage / Target Leakage)
-
- 不小心用到了未来数据(例如:用“贷款已结清”作为特征,但在申请时刻不可见)
- 特征稳定性(Stability)
-
- 某些特征在不同时间段分布差异大 → 模型上线后可能失效(PSI>0.25)
4.1.3. 数据预处理方法(Solutions)
- 缺失值处理
-
- 数值型:均值/中位数填充,或增加缺失分箱(WOE编码时常用)
- 分类型:设定一个“未知”类别
- 高缺失率(>30%) :考虑删除
- 异常值处理
-
- 逻辑过滤:年龄 <18 或 >80 → 删除
- 上下截断(Winsorize) :收入、负债率 → 限制在 1%~99%分位数
- 替代分箱:异常值单独作为一类分箱
- 类别特征处理
-
- WOE编码(逻辑回归最常用,保证单调性)
- One-hot编码(树模型常用)
- 数值缩放
-
- 对逻辑回归 → WOE后已规整,无需标准化
- 对树模型 → 一般无需缩放
- 对神经网络/SVM → 建议标准化或归一化
- 样本不平衡
-
- 欠采样多数类(比如好客户)
- 过采样少数类(SMOTE)
- 模型时调整 class_weight(如 XGBoost、LR 的
class_weight=balanced)
- 多重共线性
-
- 计算 VIF(方差膨胀因子) ,剔除 VIF > 10 的变量
- 保留更有业务解释性的那个
- 避免时间穿越
-
- 严格划定样本窗口(申请信息必须在审批前可用)
- 特征构造时仅使用 申请前数据
- 稳定性检测
-
- 计算 PSI(Population Stability Index) ,评估特征在不同时间/样本分布差异
- 不稳定特征要么删除,要么加业务逻辑调整
4.2. 特征的分箱
特征分箱(Binning) 是信贷评分卡建模中最核心的步骤之一,因为评分卡通常基于 逻辑回归 + WOE编码,而 WOE 又依赖于分箱。
| 方法 | 说明 | 适用场景 |
|---|---|---|
| 人工分箱 | 基于业务经验 | 特征明显(年龄、收入) |
| 等距/等频分箱 | 简单,但不考虑标签分布 | 初步探索 |
| 卡方分箱 | 基于统计显著性,主流方法 | 信贷评分卡建模 |
| 决策树分箱 | 基于分类树分裂点 | 特征复杂、非线性 |
| 最优分箱 | 基于信息量最大化 | 高级/自动化建模 |
4.2.1. 什么是特征分箱(Binning)
定义:把连续变量或离散变量的取值范围划分为若干区间(bin),每个区间内的样本认为“风险相似”。
目的:
- 处理连续变量与违约概率的非线性关系
- 降低噪声、减少过拟合
- 保证逻辑回归的单调性和可解释性
- 便于后续 WOE 转换 → 评分卡打分
4.2.2. 分箱的常见方法
- 人工分箱(Expert Binning)
-
- 基于业务经验设定分箱规则
- 例:年龄分为
<25, 25-35, 35-50, >50 - 优点:业务可解释性强
- 缺点:主观性强,效果未必最优
- 等距/等频分箱
-
- 等距:按照取值范围等分(如 0–100 分成 5 个区间,每段 20)
- 等频:保证每个区间样本数大致相等
- 缺点:没有利用好坏样本信息,区分能力有限
- 卡方分箱(ChiMerge Binning) ✅ 信贷评分卡最常用
-
- 基于卡方统计量,把相似的区间合并,直到达到停止条件(箱数限制、显著性水平)
- 优点:利用好坏分布信息,结果稳定,便于单调性处理
- 基于决策树的分箱
-
- 用决策树(如 CART)来切分特征区间
- 优点:能自动找到区分度高的切分点
- 缺点:分箱可能过细,需要人工调整
- 最优分箱(Optimal Binning)
-
- 基于信息熵/IV 最大化的算法来自动选择分箱点
- 在学术研究或专业软件(如 SAS、ScorecardPy)中常见
4.2.3. 分箱的原则与约束
- 箱内样本数足够: 每箱至少占总样本 5% 左右,避免太稀疏
- 好坏样本同时存在: 每个分箱应尽量包含好坏客户,否则 WOE 无法计算
- WOE 单调性: 分箱后 WOE 值应随特征值变化保持单调(或近似单调),保证逻辑回归稳定、可解释
- 分箱数量适中: 一般 3~7 个箱即可,太多影响可解释性,太少区分度不足
- 业务合理性: 分箱点符合业务逻辑(例如年龄<18 不合理,收入负数不合理)
4.2.4. 分箱后的 WOE 与 IV
4.3. WOE编码
4.3.1. WOE 编码的定义
Weight of Evidence(证据权重) 是一种用于分类特征处理的编码方式,常用于 评分卡建模(Logistic 回归)。它通过衡量某个特征取值对 好坏客户区分度 的贡献来编码。
4.3.2. WOE 编码的好处
- 单调性:经过 WOE 转换后,特征与目标变量(好坏客户)之间一般更接近线性关系,方便 Logistic 回归建模。
- 可解释性:WOE 值大小代表该分箱对违约概率的影响程度。
-
- WOE > 0:说明该分箱好客户占比更高 → 对应风险较低
- WOE < 0:说明该分箱坏客户占比更高 → 对应风险较高
- 对缺失值处理友好:缺失值可以单独作为一个分箱,计算 WOE。
- 规避量纲问题:不同特征转换为 WOE 后均在数值空间统一。
4.3.3. WOE 编码的流程
- 特征分箱(连续变量分箱 / 离散变量分组)
-
- 连续型变量:等距分箱、等频分箱、最佳分箱(基于IV最大化)
- 类别型变量:按类别统计好坏比率,合并相近类别
- 计算每个分箱的 WOE 值
-
- 按公式计算
- 注意避免分母为零(可加平滑处理,如加 0.5)
- 替换原变量为 WOE 值
-
- 模型训练时直接用 WOE 替换原始特征值
4.3.4. WOE 与 IV(信息值)
4.4. 特征信息度的计算
这部分正是信贷评分卡模型(尤其是基于 Logistic 回归的信用评分卡)中特征选择的核心步骤。我们来系统梳理一下 特征信息度(Information Value, IV) 的 计算公式、意义、应用场景。
- WOE 体现了分箱对好坏客户的区分强度(局部指标)。
- IV 衡量整个特征的整体区分能力(全局指标)。
- 建模时,常先分箱 → 计算 WOE → 计算 IV → 筛选有效特征 → WOE 编码 → Logistic 回归。
4.4.1. 特征信息度(IV)的定义
IV 是在进行特征分箱后,通过 WOE(Weight of Evidence)编码衍生出来的指标,用来衡量某个特征对目标变量(好/坏客户)的区分能力。
4.4.2. WOE 与 IV 的关系
- WOE(证据权重) :描述该分箱中好坏客户比例和总体好坏客户比例的偏离程度。
- IV(信息值) :衡量整个特征(所有分箱)对好坏客户的区分能力,是累积的结果。
4.4.3. IV 的经验判断标准
| IV 值范围 | 区分能力 | 说明 |
|---|---|---|
| IV < 0.02 | 无预测力 | 特征无用 |
| 0.02 ≤ IV < 0.1 | 弱预测力 | 区分度较弱 |
| 0.1 ≤ IV < 0.3 | 中等预测力 | 建模常用 |
| 0.3 ≤ IV < 0.5 | 强预测力 | 特征非常有效 |
| IV ≥ 0.5 | 可能过拟合 | 小心使用(可能是泄漏变量) |
4.4.4. IV计算过程示例
假设某个特征“月收入”分为三箱:
| 分箱 | 好客户数 | 坏客户数 | 好客户率(%) | 坏客户率(%) | WOE | (好率-坏率)×WOE |
|---|---|---|---|---|---|---|
| ≤5k | 200 | 300 | 0.2 | 0.5 | -0.916 | 0.275 |
| 5k-10k | 500 | 150 | 0.5 | 0.25 | 0.693 | 0.174 |
| >10k | 300 | 50 | 0.3 | 0.25 | 0.182 | 0.009 |
| 合计 | 1000 | 500 | 1.0 | 1.0 | IV=0.458 |
说明:该特征 IV=0.458,区分能力较强。
4.4.5. IV 的意义
- 特征选择工具:挑选出对区分好坏客户有用的特征,剔除无效特征。
- 避免噪声变量:低 IV 特征基本无用,过高 IV 可能是信息泄漏(例如直接用贷款是否逾期作特征)。
- 模型可解释性增强:IV 排名可以帮助业务解释为什么某些变量对违约预测重要。、
4.5. 单变量/多变量分析
| 项目 | 单变量分析 | 多变量分析 |
|---|---|---|
| 关注点 | 单个特征与目标的关系 | 多个特征之间的关系及综合作用 |
| 目的 | 变量筛选、稳定性检查 | 变量组合优化、去除共线性 |
| 方法 | WOE、IV、PSI、违约率趋势 | 相关性、VIF、逐步回归、LASSO |
| 风险 | 忽视特征间交互 | 可能包含业务无关变量 |
| 应用阶段 | 特征预筛选阶段 | 建模前和建模中 |
单变量分析分析定义: 对每一个候选特征变量,单独考察其与目标变量(好/坏客户)的关系,评估该变量的区分能力、稳定性和业务合理性。
多变量分析定义: 在多个特征变量之间进行联合分析,考察它们的相关性、交互性以及在模型中的综合表现。
4.5.1. 单变量分析常用方法
- 分布分析:变量整体分布,是否偏态、异常值多。
- WOE(Weight of Evidence)分析:不同分箱下好坏客户的占比。
- IV(Information Value)计算:评估该变量的预测能力。
- 稳定性分析(PSI, Population Stability Index) :不同时间窗口的变量分布变化,考察变量是否稳定。
- 业务合理性检查:变量取值与违约率的关系是否符合业务直觉(如收入越高违约率应越低)。
4.5.2. 单变量分析意义
- 筛选出有预测能力的变量(IV高的保留,IV低的剔除)。
- 剔除与目标无关或分布不合理的变量。
- 为后续建模提供可靠的候选变量池。
4.5.3. 多变量分析常用方法
- 相关性分析:皮尔逊相关系数、VIF(方差膨胀因子),用于检测多重共线性。
- 逐步回归 / LASSO:在多个变量中自动筛选出最优组合,避免冗余。
- 交叉分析:查看两个变量的联合分布及对目标变量的影响。
- 模型贡献度分析:看某个变量在多变量模型中的系数显著性、重要性排序。
4.5.4. 多变量分析意义
- 去除多余、强相关的变量,防止模型不稳。
- 保证模型简洁性与可解释性。
- 找出在组合下仍然有预测力的特征。
5. 申请评分卡模型算法选择
| 算法 | 原理 | 优点 | 缺点 | 适用场景 | 不适合场景 |
|---|---|---|---|---|---|
| 逻辑回归 | 线性回归+Sigmoid | 可解释性强,监管认可 | 线性假设限制,难捕捉复杂关系 | 银行审批、监管场景 | 特征非线性关系复杂 |
| 决策树 | 特征分裂 | 易解释,能处理非线性 | 容易过拟合,不稳定 | 小样本、特征交互强 | 需要稳定可推广模型 |
| 随机森林/GBDT/XGBoost | 集成树模型 | 高准确率,能捕捉复杂关系 | 黑箱,可解释性差 | 大数据、互联网金融 | 监管严格要求可解释性 |
| 神经网络 | 多层非线性映射 | 强拟合能力,处理复杂数据 | 黑箱,需大样本 | 非结构化数据(社交、图像) | 银行传统信贷审批 |
- 逻辑回归 仍是申请评分卡的主流算法(满足监管 + 可解释性)。
- 树模型/集成方法 多用于辅助模型、探索性建模或反欺诈。
- 深度学习多在互联网大数据风控里应用,但不适合传统审批。
5.1. 逻辑回归(Logistic Regression) —— 评分卡最常用算法
原理:基于线性回归,将违约概率通过 sigmoid 函数映射到 (0,1)。模型输出:p 表示借款人违约的概率。权重系数可解释为特征对违约风险的影响方向和大小。
适用场景:
- 样本量足够大,变量与目标变量近似线性关系。
- 风险模型需要高可解释性(金融监管对可解释性要求高)。
不适合场景:
- 非线性特征关系较强,特征交互复杂(例如互联网消费金融中的大规模行为数据)。
存在问题:
- 变量多重共线性 → 导致系数不稳定。
- 线性假设限制 → 无法捕捉复杂非线性关系。
- 样本不平衡 → 模型偏向多数类。
解决方法:
- WOE 分箱、IV 筛选降低多重共线性;
- 引入交互变量或非线性变换;
- 使用采样方法(SMOTE、欠采样)、调整阈值或改用 AUC 评估。
5.2. 决策树(Decision Tree)及其扩展
原理:基于特征分裂规则(信息增益、基尼系数)递归划分样本。
适用场景:
- 特征与目标变量的关系非线性、存在交互。
- 样本量较大,变量多样化(如电商交易、社交网络数据)。
不适合场景:
- 强调模型可解释性和稳定性(单树容易过拟合)。
存在问题与解决:
- 过拟合 → 剪枝、限制树深度;
- 不稳定 → 使用 Bagging、随机森林、XGBoost 提升稳定性。
5.3. 随机森林 / GBDT / XGBoost
原理:集成学习,通过多棵树投票或加权,降低方差、提升预测精度。
适用场景:
- 大规模复杂数据,特征之间存在强交互关系。
- 风控中的早期探索性建模,或内部风控优化。
不适合场景:
- 监管严格的场景(模型黑箱,不易解释)。
问题与解决:
- 可解释性差 → 通过特征重要性、SHAP 值提升解释;
- 训练时间长 → 使用分布式计算、特征选择。
5.4. 神经网络(NN)
原理:多层非线性映射,拟合复杂的非线性关系。
适用场景:
- 大数据场景(如互联网金融、消费分期)。
- 特征非常复杂(如图像、文本、社交数据)。
不适合场景:
- 样本量较小、监管要求可解释性高的传统银行信贷审批。
问题与解决:
- 黑箱、难解释 → 引入可解释 AI 方法(LIME、SHAP)。
- 过拟合 → Dropout、正则化。
6. 申请评分卡模型的评价标准
申请评分卡模型(Application Scorecard)常用的评价标准,即模型的区分度、准确度、稳定性,以及如何将概率转化为评分。
- 区分度 → 衡量模型排序能力(KS、AUC)
- 准确度 → 衡量预测概率是否接近真实(Brier、校准曲线)
- 稳定性 → 衡量模型能否长期适用(PSI、OOT)
- 分数映射 → 将违约概率转为直观评分(PDO、基准分)
6.1. 模型的区分度
定义:衡量模型能否有效区分“好客户”(违约概率低)和“坏客户”(违约概率高)。
常用指标:
- KS 值(Kolmogorov-Smirnov)
-
- 公式:KS = max |CDF_good(x) – CDF_bad(x)|
- 含义:在某个分数点,好客户累计比例与坏客户累计比例的最大差异。
- 一般标准:
-
-
- KS < 0.2 → 模型较弱
- 0.2 ≤ KS < 0.4 → 可接受
- 0.4 ≤ KS < 0.6 → 较好
- 0.6 → 极佳(很少见)
-
- Divergence系数
- Gini系数
6.2. 模型的准确度
定义:预测的违约概率是否接近真实发生概率。常用指标:
- Brier Score:预测概率与实际标签差异的均方误差,越小越好。
- Log-Loss:交叉熵损失,惩罚错误预测,越小越好。
- 实际违约率 vs 预测违约率对比(分箱后校准):比如预测某区间违约率 5%,实际观测违约率也接近 5%,说明模型校准性好。
- AUC / ROC 曲线
-
- AUC(Area Under Curve)越大,说明模型区分能力越强。
- 一般标准:
-
-
- AUC = 0.5 → 无效(和随机猜测一样)
- 0.6-0.7 → 一般
- 0.7-0.8 → 良好
- 0.8-0.9 → 优秀
- 0.9 → 过拟合风险
-
✅ 意义:区分度高,说明模型在审批时能有效识别高风险人群,降低坏账率。
✅ 意义:
- 即使区分度高(能排序),但如果校准性差,预测的风险概率就会偏离,定价、额度分配、资本占用都会出问题。
- 在信贷业务中,准确度影响定价和风险管理的精细化程度。
6.3. 模型的稳定性
定义:模型在不同时间段、不同样本上的表现是否一致,能否长期适用。
常用指标:
- PSI(Population Stability Index)
-
- 公式:PSI = Σ (Pi – Qi) * ln(Pi / Qi)
- 其中 Pi = 建模时分布占比,Qi = 评分后样本分布占比。
- 一般标准:
-
-
- PSI < 0.1 → 稳定
- 0.1-0.25 → 有轻微漂移,需要监控
- 0.25 → 模型不稳定,需要重建或调整
-
- CSI(Characteristic Stability Index) :和 PSI 类似,但针对特征变量的分布漂移。
- 时间窗口验证(OOT,Out-of-Time test) :用不同时间的数据测试模型效果,验证是否随时间衰减。
✅ 意义:
- 稳定性保证了模型在投产后不会因宏观经济变化、客户群体变化而迅速失效。
- 如果稳定性差,可能需要 特征再筛选、定期重训、引入宏观经济变量 来增强鲁棒性。
6.4. 从概率到分数
在实际业务中,审批环节不会直接用“违约概率”,而是转化为“评分”,便于直观理解和应用。
转换公式:常见的 对数几率(logit)转化:
- p = 预测违约概率
- Offset = 基础分
- Factor = 分数缩放因子
评分卡常见参数
- PDO(Points to Double Odds) :分数每增加多少点,坏好比(odds)翻倍。比如:PDO = 20,说明每增加 20 分,客户违约概率减少一半。
- 基准分(Base Score) :在基准坏好比下对应的分数。
例子:
- 设基准分 = 600,基准坏好比 = 20:1(好:坏 = 20:1)
- PDO = 20
- 那么每增加 20 分,坏好比翻倍(好坏比更优)。
评分解释
- 分数越高 → 风险越低 → 更容易获批
- 分数越低 → 风险越高 → 可能拒绝/降额/提价
✅ 意义:
- 转换后的评分体系便于业务直观使用。
- 可以设定不同的 Cut-off 分数 来决定是否批贷。
- 可以支持差异化定价、额度调整。
7. 申请评分卡模型相关问题思考
8. 博文参考
- 《信贷模型域》
- 《机器学习》
- 《信贷全生命周期》