Datawale组队学习17期——Task1 赛题理解

184 阅读18分钟

首先,就是注册天池账号,补充个人资料,进入比赛的页面就可以成功报名啦。 

首先是我们的赛题:零基础入门金融风控-贷款违约预测,这是一个由datawhale和天池主办的给新手入门的一个比赛,面向的领域是金融领域,可能需要一些领域知识。

赛题即给定贷款申请人的数据信息,我们需要预测其是否有违约的可能,也就是个典型的二分类问题。而预测结果的评分则通过AUC(Area Under Curve)来完成,即ROC曲线下与坐标轴围成的面积。

这里回顾一下几个基础的评价指标:

1. TP(True Positive),即预测为Positive(1)且预测正确,中文称:真阳性

2. 同理,还有FP,TN,FN这些指标。

3. Recall(回召),或者成真阳性率(True Positive Rate),Recall=TP/(TP+FN)

4. 假阳性率(FPR),FPR=FP/(FP+TN)

ROC(Receiver Operating Characteristic)曲线即以真阳性率/召回率为纵坐标,假阳性率为横坐标绘制的曲线,每个点对应模型将阈值(Threshold)调整至当前状态所得到的值。

ROC是反映敏感性和特异性连续变量的综合指标,ROC曲线上每个点反映着对同一信号刺激的感受性。理想情况下,TPR应该接近1,FPR应该接近0。

由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围一般在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。

然后下载赛题的训练数据、测试数据和样例数据。

最后,我们理一下思路:

1. 数据EDA:这些数据是真实数据脱敏后的结果,所以需要进行异常值处理和缺失值处理,来清洗数据,当然,在这之前通过几个指标先概览一下数据

2. 特征工程:通过构造特征、过滤特征等,为进行模型留下比较高质量的数据

3. 建模调参:首先注意到这些数据是结构化数据,所以传统机器学习应该有能力很好地处理它们,其次,由于数据量较大,传统的SVM等可能没有足够的学习能力,可以用逻辑回归作为一个快速的base line,然后尝试Xgboost、决策树、Lightgbm、Catboost等方法。

4. 模型融合:待定,一般集成学习能很好地提高模型的效果。

Task 1 Finish!