Data
收集起来的事实和统计数字,以供参考或分析计算
- Attributes/Properties
- Categorical
- Ordinal
- Quantitative
相似性度量
考虑到我是条懒狗,这边的公式懒得打lateX,直接找个图片CV了
- 汉明距离:两个等长字符串对应位置的不同字符的个数
- 欧氏距离
- 曼哈顿距离
- 明可夫斯基距离/明氏距离
- 马哈拉诺比斯距离/马氏距离
- Tonimoto系数/广义Jaccard相似系数
import numpy as np
def tanimoto_coefficient(p_vec, q_vec):
"""
This method implements the cosine tanimoto coefficient metric
:param p_vec: vector one
:param q_vec: vector two
:return: the tanimoto coefficient between vector one and two
"""
pq = np.dot(p_vec, q_vec)
p_square = np.linalg.norm(p_vec)
q_square = np.linalg.norm(q_vec)
return pq / (p_square + q_square - pq)
- Pearson相关系数
基本统计特征
- 中心/集中趋势度量
- 度量数据分布的集中位置
- 均值、中位数、众数等
- 离中趋势度量
- 度量数据的分散程度/波动性
- 极差、标准差、方差、变异系数、四分位数、四分位数极差等
- 数据分布形状度量
- 偏态、峰态
- 偏离程度用偏离系数度量
基本统计特征的图形显示:
- 直方图
- 分位数图
- 散点图、散点矩阵图
- 局部回归曲线
数据预处理
数据中存在脏数据(dirty data),需要进行数据预处理
数据质量的多维度量
- 精确性Accuracy
- 完整性Completeness
- 一致性Consistency
- 适时性Timeliness
- 可信性Believability
- 可解释性Interpretability
数据预处理步骤
数据清理
为提高数据质量,需要检测和清除数据中的错误和不一致
- 回归分析
- 离群点分析/聚类分析
- 分箱binning
数据集成
将多个数据源中的数据整合到一个一致的存储中
- 模式集成
- 检测、解决数据冲突
数据转换
- 聚集
- 规范化
- 数据泛化
- 属性构造
数据归约
- 数据立方体聚集
- 属性子集选择
- 维度规约
- 数值规约
- 离散化和概念分层