【可视化】数据及其统计特征

114 阅读2分钟

Data

收集起来的事实和统计数字,以供参考或分析计算

  • Attributes/Properties
    • Categorical
    • Ordinal
    • Quantitative

相似性度量

考虑到我是条懒狗,这边的公式懒得打lateX,直接找个图片CV了

  • 汉明距离:两个等长字符串对应位置的不同字符的个数 image.png
  • 欧氏距离
  • 曼哈顿距离
  • 明可夫斯基距离/明氏距离 image.png
  • 马哈拉诺比斯距离/马氏距离 image.png
  • Tonimoto系数/广义Jaccard相似系数

image.png

import numpy as np
def tanimoto_coefficient(p_vec, q_vec):
    """
    This method implements the cosine tanimoto coefficient metric
    :param p_vec: vector one
    :param q_vec: vector two
    :return: the tanimoto coefficient between vector one and two
    """
    pq = np.dot(p_vec, q_vec)
    p_square = np.linalg.norm(p_vec)
    q_square = np.linalg.norm(q_vec)
    return pq / (p_square + q_square - pq)
  • Pearson相关系数 image.png

基本统计特征

  • 中心/集中趋势度量
    • 度量数据分布的集中位置
    • 均值、中位数、众数等
  • 离中趋势度量
    • 度量数据的分散程度/波动性
    • 极差、标准差、方差、变异系数、四分位数、四分位数极差等
  • 数据分布形状度量
    • 偏态、峰态
    • 偏离程度用偏离系数度量

基本统计特征的图形显示:

  • 直方图
  • 分位数图
  • 散点图、散点矩阵图
  • 局部回归曲线

数据预处理

数据中存在脏数据(dirty data),需要进行数据预处理

数据质量的多维度量

  • 精确性Accuracy
  • 完整性Completeness
  • 一致性Consistency
  • 适时性Timeliness
  • 可信性Believability
  • 可解释性Interpretability

数据预处理步骤

数据清理

为提高数据质量,需要检测和清除数据中的错误和不一致

  • 回归分析
  • 离群点分析/聚类分析
  • 分箱binning

数据集成

将多个数据源中的数据整合到一个一致的存储中

  • 模式集成
  • 检测、解决数据冲突

数据转换

  • 聚集
  • 规范化
  • 数据泛化
  • 属性构造

数据归约

  • 数据立方体聚集
  • 属性子集选择
  • 维度规约
  • 数值规约
  • 离散化和概念分层