糖尿病遗传风险检测挑战赛—记录

256 阅读1分钟

闲话:

报名链接:2022 iFLYTEK A.I.开发者大赛-讯飞开放平台 (xfyun.cn)

这是我第一次参加数据分析方面的比赛,了解途径是Coggle 30 Days of ML(22年7月) - Coggle数据科学。“coggle数据科学”举办了30天入门数据竞赛的活动,希望我能坚持把这个竞赛做完吧!

正题:

任务1:报名比赛

读取数据的代码

import pandas as pd

train_df = pd.read_csv('./糖尿病遗传风险预测挑战赛公开数据/比赛训练集.csv', encoding='gbk')
test_df = pd.read_csv('./糖尿病遗传风险预测挑战赛公开数据/比赛测试集.csv', encoding='gbk')

print(train_df.shape, test_df.shape)
print(train_df.dtypes, test_df.dtypes)

任务2:比赛数据分析

步骤1:统计字段的缺失值,计算缺失比例