Kaggle竞赛经典案例深度剖析

888 阅读2分钟

Download: Kaggle竞赛经典案例深度剖析 网盘下载

Kaggle是一个数据建模和数据分析竞赛平台。 企业和研究者可在其上发布数据,统计学者和数据挖掘专家可在其上进行竞赛以产生最好的模型。 很多公司会发布一些接近真实业务的问题,吸引爱好数据科学的人来一起解决。

Kaggle竞赛经典案例

预测建模

预测建模的主要目标之一是建立一个模型,对新的、看不见的数据进行准确的预测。因此,建立模型的一个必要步骤是确保它们不会过度拟合训练数据,这将导致对新数据的次优预测。 我们已经创建了一个包含200个变量和20,000个案例的模拟数据集。基于此数据创建了一个“方程”,以生成要预测的目标(Y)。考虑到所有20000个案例,这个问题很容易解决——但您只得到了250个案例的Target值——任务是构建

image.png

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
df = pd.read_csv(r"../input/heart-attack-analysis-prediction-dataset/heart.csv")
df.head
<bound method NDFrame.head of      age  sex  cp  trtbps  chol  fbs  restecg  thalachh  exng  oldpeak  slp  \
0     63    1   3     145   233    1        0       150     0      2.3    0   
1     37    1   2     130   250    0        1       187     0      3.5    0   
2     41    0   1     130   204    0        0       172     0      1.4    2   
3     56    1   1     120   236    0        1       178     0      0.8    2   
4     57    0   0     120   354    0        1       163     1      0.6    2   
..   ...  ...  ..     ...   ...  ...      ...       ...   ...      ...  ...   
298   57    0   0     140   241    0        1       123     1      0.2    1   
299   45    1   3     110   264    0        1       132     0      1.2    1   
300   68    1   0     144   193    1        1       141     0      3.4    1   
301   57    1   0     130   131    0        1       115     1      1.2    1   
302   57    0   1     130   236    0        0       174     0      0.0    1   

     caa  thall  output  
0      0      1       1  
1      0      2       1  
2      0      2       1  
3      0      2       1  
4      0      2       1  
..   ...    ...     ...  
298    0      3       0  
299    0      3       0  
300    2      3       0  
301    1      3       0  
302    1      2       0  

[303 rows x 14 columns]>

描述数据集 年龄:病人的年龄 性别:患者性别(男= 1,女= 0) Exang:运动性心绞痛(1 = yes;0 = no) Ca:主要船只数量(0-3) cp:胸痛型胸痛型 值1:典型心绞痛值2:非典型心绞痛值3:非心绞痛值4:无症状trtbps:静息血压(mm Hg) chol:通过BMI传感器取胆甾体毫克/分升 FBS:(空腹血糖> 120 mg/dl) (1 = true;0 = false) 运动诱发的相对于休息的高峰T抑制slp -运动高峰ST段(顺序)

用Kaggle竞赛经验弥补工作经验不足的短板

很多刚毕业的大学生,甚至是职场上已经工作一两年的小白,由于在学校没有把知识学透,相关的工作经验也屈指可数,自身竞争力不足,导致求职时面临很大压力。

如果短时间内无法去大公司实习获得好的经验,那么参加kaggle竞赛是你的最佳选择。

如果你本身在数据科学领域已经有一定的经验,Kaggle比赛经历会为你的简历不仅是锦上添花,多数时候甚至是雪中送炭的效果,使你在竞争者中脱颖而出。

Kaggle的Profile是你能力的证明

Kaggle竞赛另一个有趣的地方在于每个人都有自己的Profile,上面会显示所有自己参与过的项目、活跃度、实时排位、历史最佳排位等,不仅看上去非常有成就感,更能在求职和申请的时候起到Certificate的作用。