缺失值
- 比赛提供的数据,发现有些单元格是null或者空
- 缺失太多:例如调查人口信息,发现“年龄”这一项缺失了40%,直接把这项指标删除
- 最简单处理:均值、众数插补
- 定量数据,例如关于一群人的身高、年龄等数据,用整体的均值来补缺失
- 定性数据,例如关于一群人的性别、文化程度,用出现次数最多的值来补缺失
- Newton插值法:
- 根据固定公式,构造近似函数,补上缺失值,普遍适用性强
- 缺点:区间边缘处的不稳定震荡,不适合对导数有要求的题目
3. 适用的主题:热力学温度、地形测量、定位等只追求函数值精准而不关心变化的数据
- 样条插值法
- 用分段光滑的曲线去插值,光滑意味着曲线不仅连续,还要有连续的曲率
- 适用的主题:零件加工,水库水流量,图像“基线漂移”,机器人轨迹等精度要求高、没有突变的数据
异常值
-
样本中明显和其他数值差异很大的数据,例如一群人的身高中有个3.2米的
-
正态分布3∑原则
- 数值分布在(μ-3∑,μ+3∑)中的概率为99.73%,其中μ为平均值,∑为标准差
- 求解步骤:a.计算均值μ和标准差∑;b.判断每个数据值是否在(μ-3∑,μ+3∑)内,不在则为异常值
3. 适用题目:总体符合正态分布,例如人口数据、测量误差、生产加工质量、考试成绩等
4. 不适用的题目:总体符合其他分布,例如公交站人数排队论符合泊松分布
-
画箱形图
- 箱形图中,把数据从小到大排序。下四分位数Q1是排第25%的数值,上四分位数Q3是排第75%的数值
- 四分位距IQR = Q3 - Q1,也就是排名第75%的减去第25%的数值(IQR代表集中的程度)
- 与正态分布类似,设置合理区间,在区间外的就是异常值
- 一般设[Q1 - 1.5 * IQR , Q3 + 1.5 * IQR]内为正常值
5. 适用题目:普遍