首先,就是注册天池账号,补充个人资料,进入比赛的页面就可以成功报名啦。
首先是我们的赛题:零基础入门金融风控-贷款违约预测,这是一个由datawhale和天池主办的给新手入门的一个比赛,面向的领域是金融领域,可能需要一些领域知识。
赛题即给定贷款申请人的数据信息,我们需要预测其是否有违约的可能,也就是个典型的二分类问题。而预测结果的评分则通过AUC(Area Under Curve)来完成,即ROC曲线下与坐标轴围成的面积。
这里回顾一下几个基础的评价指标:
1. TP(True Positive),即预测为Positive(1)且预测正确,中文称:真阳性
2. 同理,还有FP,TN,FN这些指标。
3. Recall(回召),或者成真阳性率(True Positive Rate),Recall=TP/(TP+FN)
4. 假阳性率(FPR),FPR=FP/(FP+TN)
ROC(Receiver Operating Characteristic)曲线即以真阳性率/召回率为纵坐标,假阳性率为横坐标绘制的曲线,每个点对应模型将阈值(Threshold)调整至当前状态所得到的值。
ROC是反映敏感性和特异性连续变量的综合指标,ROC曲线上每个点反映着对同一信号刺激的感受性。理想情况下,TPR应该接近1,FPR应该接近0。
然后下载赛题的训练数据、测试数据和样例数据。
最后,我们理一下思路:
1. 数据EDA:这些数据是真实数据脱敏后的结果,所以需要进行异常值处理和缺失值处理,来清洗数据,当然,在这之前通过几个指标先概览一下数据
2. 特征工程:通过构造特征、过滤特征等,为进行模型留下比较高质量的数据
3. 建模调参:首先注意到这些数据是结构化数据,所以传统机器学习应该有能力很好地处理它们,其次,由于数据量较大,传统的SVM等可能没有足够的学习能力,可以用逻辑回归作为一个快速的base line,然后尝试Xgboost、决策树、Lightgbm、Catboost等方法。
4. 模型融合:待定,一般集成学习能很好地提高模型的效果。
Task 1 Finish!