882单表代码部分

130 阅读1分钟

赛题名称

个贷违约预测

赛题背景

为进一步促进金融普惠的推广落地,金融机构需要服务许多新的客群。银行作为对风险控制要求很高的行业,因为缺乏对新客群的了解,对新的细分客群的风控处理往往成为金融普惠的重要阻碍。如何利用银行现有信贷行为数据来服务新场景、新客群成了一个很有价值的研究方向,迁移学习是其中一个重要手段。

#!/usr/bin/env python
# coding: utf-8

# In[1]:



import warnings
warnings.simplefilter('ignore')

import os
import re
import gc

import numpy as np
import pandas as pd
pd.set_option('max_columns', None)
pd.set_option('max_rows', 200)
pd.set_option('float_format', lambda x: '%.3f' % x)

from tqdm.notebook import tqdm

from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import roc_auc_score

import lightgbm as lgb


# In[2]:



train_data = pd.read_csv('train_dataset/train_public.csv')


# In[3]:


test_data = pd.read_csv('test_public.csv')


# In[4]:


# print(train_data['isDefault'].shape)
# print(train_internet['isDefault'].shape)
# print(train_internet['isDefault'].value_counts(dropna=True))

# print(train_data['isDefault'].value_counts(dropna=True))


# In[5]:



data = pd.concat([train_data, test_data])

print(data.shape)
data.head()


# In[6]:


data['issue_date'] = pd.to_datetime(data['issue_date'])
data['issue_mon'] = data['issue_date'].dt.year * 100 + data['issue_date'].dt.month
data.drop(['issue_date'], axis=1, inplace=True)

data