赛题名称
个贷违约预测
赛题背景
为进一步促进金融普惠的推广落地,金融机构需要服务许多新的客群。银行作为对风险控制要求很高的行业,因为缺乏对新客群的了解,对新的细分客群的风控处理往往成为金融普惠的重要阻碍。如何利用银行现有信贷行为数据来服务新场景、新客群成了一个很有价值的研究方向,迁移学习是其中一个重要手段。
#!/usr/bin/env python
# coding: utf-8
# In[1]:
import warnings
warnings.simplefilter('ignore')
import os
import re
import gc
import numpy as np
import pandas as pd
pd.set_option('max_columns', None)
pd.set_option('max_rows', 200)
pd.set_option('float_format', lambda x: '%.3f' % x)
from tqdm.notebook import tqdm
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import roc_auc_score
import lightgbm as lgb
# In[2]:
train_data = pd.read_csv('train_dataset/train_public.csv')
# In[3]:
test_data = pd.read_csv('test_public.csv')
# In[4]:
# print(train_data['isDefault'].shape)
# print(train_internet['isDefault'].shape)
# print(train_internet['isDefault'].value_counts(dropna=True))
# print(train_data['isDefault'].value_counts(dropna=True))
# In[5]:
data = pd.concat([train_data, test_data])
print(data.shape)
data.head()
# In[6]:
data['issue_date'] = pd.to_datetime(data['issue_date'])
data['issue_mon'] = data['issue_date'].dt.year * 100 + data['issue_date'].dt.month
data.drop(['issue_date'], axis=1, inplace=True)
data