Download: Kaggle竞赛经典案例深度剖析 网盘下载
Kaggle是一个数据建模和数据分析竞赛平台。 企业和研究者可在其上发布数据,统计学者和数据挖掘专家可在其上进行竞赛以产生最好的模型。 很多公司会发布一些接近真实业务的问题,吸引爱好数据科学的人来一起解决。
Kaggle竞赛经典案例
预测建模
预测建模的主要目标之一是建立一个模型,对新的、看不见的数据进行准确的预测。因此,建立模型的一个必要步骤是确保它们不会过度拟合训练数据,这将导致对新数据的次优预测。 我们已经创建了一个包含200个变量和20,000个案例的模拟数据集。基于此数据创建了一个“方程”,以生成要预测的目标(Y)。考虑到所有20000个案例,这个问题很容易解决——但您只得到了250个案例的Target值——任务是构建
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
df = pd.read_csv(r"../input/heart-attack-analysis-prediction-dataset/heart.csv")
df.head
<bound method NDFrame.head of age sex cp trtbps chol fbs restecg thalachh exng oldpeak slp \
0 63 1 3 145 233 1 0 150 0 2.3 0
1 37 1 2 130 250 0 1 187 0 3.5 0
2 41 0 1 130 204 0 0 172 0 1.4 2
3 56 1 1 120 236 0 1 178 0 0.8 2
4 57 0 0 120 354 0 1 163 1 0.6 2
.. ... ... .. ... ... ... ... ... ... ... ...
298 57 0 0 140 241 0 1 123 1 0.2 1
299 45 1 3 110 264 0 1 132 0 1.2 1
300 68 1 0 144 193 1 1 141 0 3.4 1
301 57 1 0 130 131 0 1 115 1 1.2 1
302 57 0 1 130 236 0 0 174 0 0.0 1
caa thall output
0 0 1 1
1 0 2 1
2 0 2 1
3 0 2 1
4 0 2 1
.. ... ... ...
298 0 3 0
299 0 3 0
300 2 3 0
301 1 3 0
302 1 2 0
[303 rows x 14 columns]>
描述数据集 年龄:病人的年龄 性别:患者性别(男= 1,女= 0) Exang:运动性心绞痛(1 = yes;0 = no) Ca:主要船只数量(0-3) cp:胸痛型胸痛型 值1:典型心绞痛值2:非典型心绞痛值3:非心绞痛值4:无症状trtbps:静息血压(mm Hg) chol:通过BMI传感器取胆甾体毫克/分升 FBS:(空腹血糖> 120 mg/dl) (1 = true;0 = false) 运动诱发的相对于休息的高峰T抑制slp -运动高峰ST段(顺序)
用Kaggle竞赛经验弥补工作经验不足的短板
很多刚毕业的大学生,甚至是职场上已经工作一两年的小白,由于在学校没有把知识学透,相关的工作经验也屈指可数,自身竞争力不足,导致求职时面临很大压力。
如果短时间内无法去大公司实习获得好的经验,那么参加kaggle竞赛是你的最佳选择。
如果你本身在数据科学领域已经有一定的经验,Kaggle比赛经历会为你的简历不仅是锦上添花,多数时候甚至是雪中送炭的效果,使你在竞争者中脱颖而出。
Kaggle的Profile是你能力的证明
Kaggle竞赛另一个有趣的地方在于每个人都有自己的Profile,上面会显示所有自己参与过的项目、活跃度、实时排位、历史最佳排位等,不仅看上去非常有成就感,更能在求职和申请的时候起到Certificate的作用。