问题思考——变量分箱需保证单调?
发布网友
发布时间:2024-10-01 18:00
我来回答
共1个回答
热心网友
时间:2024-10-15 16:38
今天探讨的问题是,在经典评分卡建模流程中,对变量进行分箱操作时,是否必须保证bad_rate的单调性。这一问题引发了我和同事之间关于建模流程中第二耗时环节——调整分箱以确保单调性的热烈讨论。我的观点与同事的观点形成了鲜明的对比,认为单调性并非绝对必要条件,尽管单调性确实能增强模型的可解释性。为验证这一观点,我将通过一系列的案例分析,使用不同指标(AUC、KS、LIFT、PSI、评分卡排序性等)对模型进行评估。
首先,我参考了厚本金融的评分卡开源库 toad,同时利用了谢博士的 scorecardpy包,并参考了梅老师的文章“Toad | Pyhon评分卡工具轻松实现风控模型开发”。建模流程包括以下步骤:
1. 数据集划分
2. 变量粗筛
3. 分箱与调整分箱
4. WOE转化
5. 再筛及逐步回归确定入模变量
6. LR模型与评分卡制作
7. 模型评价
通过执行模型测验与评价,我们得到以下结果:
模型1:在保持单调性的情况下构建的模型
模型2:在不考虑单调性的情况下构建的模型
模型3:在部分情况下调整分箱以优化单调性的模型
模型4:在严格遵循单调性规则构建的模型
在比较这四个模型的效果后,我们发现模型的效果差异并不显著,这主要归功于WOE转化过程。WOE转化使得模型能够更好地拟合变量的真实值与样本预测坏客户概率之间的非线性关系,从而在不同分箱方式(合理或不合理的)下,模型效果差异不大。
在WOE转化过程中,通过调整分箱可以改善模型的拟合能力。例如,WOE转化案例1中,通过优化分箱方式,显著提高了模型的拟合效果;案例2进一步说明了合理分箱对于模型性能的积极影响。
综上所述,虽然保证bad_rate的单调性有助于提升模型的可解释性,但在实际应用中,WOE转化的优化和模型性能的综合考量更为关键。不同分箱方式(合理或不合理的)构建的模型,其效果的差异并不显著,因此,是否调整分箱以确保单调性并非绝对必要。