数据抽象与类型：从结构化到非结构化，数据分类的基本框架(学习笔记) 在数据可视化与分析实践中，对数据本身的理解是开展后

说明：本文是对北京大学公开课《数据可视化》（共63讲）中“数据抽象与类型,数据集类型，数据基本类型，属性类型”部分的学习内容整理。作为一种课堂笔记的书面化尝试，旨在梳理基本概念和分类框架，供参考与交流。

在数据可视化与分析实践中，对数据本身的理解是开展后续工作的基础。数据可以依据组织形式、属性特征和语义关系进行多层次的分类。以下内容围绕数据集类型、基本构成单元以及属性类型三个层面展开。

一、数据集类型：结构化与非结构化

从数据集的整体组织形式来看，可以区分为两大类：

结构化数据：具有已知的数据类型和明确的语义，通常以关系型数据库或表格形式存储，便于直接查询和分析。
非结构化数据：没有预定义的数据模型，常见形式包括文字、视频、图像、音频等。这类数据无法直接置入二维表格，但可通过技术手段转化为结构化形式。

例如，借助自然语言处理，可以将文字转换为高维向量表示，再通过关键词提取与词频统计，实现对文本的量化分析，进而支持情感判别、主题识别或关联挖掘（如发现不同菜谱间共享的配料，从而构建网络关系）。

二、数据集类型的常见分类

编辑

根据数据组织方式的差异，数据集可大致分为以下五类：

1. 表格数据集

表格是最常见的数据组织形式，其中每一行对应一个样本（数据项），每一列对应一个属性（特征）。

编辑

表格数据的可视化方法较为多样，其中重要的一类面向高维数据（即每个样本由多个数值特征描述）。

编辑

典型方法包括平行坐标图、散点图矩阵等，用于展示样本在各维度上的分布及特征间的相关性。实际应用中，表格可用于呈现期刊在不同年份的论文发表量、候选人名单等信息。

编辑

2. 图/网络数据集

图结构由顶点（节点）和边（连接）构成。简单图不包含多重边且无自环。

编辑这类数据广泛应用于社交网络、知识图谱、交通网络等场景。可视化常采用力导向布局、层次布局等方法，以展示节点间的关联结构与聚类特征。

编辑

在图数据中，根据边和结构的性质，可进一步区分若干特殊类型：

有向图（Digraph） ：边具有方向性，即边 A→B 与 B→A 被视为不同的连接关系。有向图适用于表示具有流向、因果关系或单向依赖的场景，如网页超链接、引用关系、微博关注等。
树（Tree） ：是一种无环的连通图，任意两个节点之间仅存在唯一路径。树结构广泛用于层次数据，如组织架构、文件目录、分类体系等。其可视化常采用径向布局或树状图。
超图（Hypergraph） ：允许一条边连接任意数量的顶点，而非仅限于两个。超图能够刻画多元关系，如一篇论文由多位作者共同完成、一个商品属于多个类别等场景。在可视化中，超图常通过集合圈或高亮区域来表示超边。

编辑这些特殊类型在图论和可视化中有各自专用的布局与编码方法，根据数据本身的语义选择合适的表示方式至关重要。

3. 场数据集

场数据用于描述连续空间上的物理量分布，如温度场、磁场、风速场等。其类型可细分为标量场、矢量场、张量场等。

编辑

相应的可视化手段包括等值线图、颜色映射、流线图、箭头图等，常用于科学计算与工程仿真领域。

编辑

在场数据的离散化表示中，网格是采样与存储的基础结构。根据网格几何形态和组织方式的不同，可进一步区分为以下四种常见类型：

单一网格（Uniform Grid） ：所有网格单元在空间各方向上具有相同的尺寸，采样点均匀分布。该结构简单规则，便于直接计算几何属性和拓扑关系，适用于规则区域内的场数据。
直线网格（Rectilinear Grid） ：网格线仍为直线，但采样间距可以在不同方向上非均匀设置，即各方向上的步长可以独立变化。这种结构允许在变化剧烈的区域加密采样，而在平缓区域稀疏采样，以提高存储和计算效率。
结构化网格（Structured Grid） ：网格线可以是曲线，以适应复杂几何边界，但网格的拓扑结构仍是规则的——每个内部节点具有相同数量的相邻节点，形成逻辑上的矩形或六面体排列。此类网格在计算流体力学等领域较为常见。
非结构化网格（Unstructured Grid） ：网格单元的形状和连接关系完全灵活，没有规则的拓扑约束。每个顶点的位置及其与其他顶点的连接关系需要显式存储。这种网格能够拟合任意形状的几何区域，但数据管理和后续计算的开销相对较大，通常应用于复杂地形或不规则边界问题。

编辑

这四种网格类型在实际应用中根据数据特性和计算需求进行选择，各自在灵活性和计算效率上有所取舍。

4. 几何数据集

此类数据描述空间中的几何形状或运动轨迹，例如车辆行驶轨迹、三维点云、建筑物轮廓等。这类数据通常兼具空间与时间属性，属于典型的时空数据，适合采用轨迹图、三维渲染或动态动画进行呈现。

编辑

5. 其他数据集类型

除上述四类外，还存在多模态数据、层次数据、时序数据等混合或特殊类型，往往需要结合多种可视化方法进行综合展示。

编辑

三、数据的基本构成单元

无论数据集属于何种类型，都可以从更基础的层面加以理解：

数据项（Item） ：数据集中独立的实体，通常是离散的个体，例如一名患者、一辆汽车、一只股票或一个城市。在表格中，每一行通常对应一个数据项。
链接（Link） ：定义数据项之间的关联关系。这种关系可以灵活定义，既可以是基于属性相似度等共性的衍生关系，也可以是物理或逻辑上的直接联系（如引用、空间邻接、社交关注等）。在图中，链接即为边。
属性（Attribute） ：通过对数据项进行测量、观察或记录而获得的特征，例如患者的身高与血压、汽车的马力与制造商等。在表格中，每一列对应一个属性。属性的类型（定类、定序、定距、定比）决定了可对其施加的运算和适用的视觉通道。
位置（Position） ：用于描述数据在空间中的定位信息，通常为坐标（如经纬度、三维空间中的 x,y,z）。位置是几何数据与场数据的核心要素，也是许多可视化布局的基础。
网格（Grid） ：在空间连续数据的离散化采样中，网格定义了采样点的组织结构。网格可以是均匀的、非均匀的、结构化的或非结构化的，具体类型已在前文“场数据集”中详述。

四、属性类型及其对操作的约束

决定数据可被如何操作、以及可通过哪些视觉通道加以编码的，是属性类型。根据属性的度量尺度，可进行如下划分：

定类型（Categorical） ：用于区分不同类别，但不具备内在的顺序或数值意义。可进行的操作主要是判断相等或不相等。典型例子包括水果种类、性别、电影类型、文件格式等。在可视化中，这类属性适宜使用颜色、形状等视觉通道进行区分。
有序型（Ordered） ：属性值之间存在顺序关系，可进一步分为两种：
- 定序型（Ordinal） ：可以比较大小或排序，但值之间的差值不具备数学意义。例如排名（第一、第二、第三）、教育程度（小学 < 中学 < 大学）、调查中的满意度等级（满意 < 一般 < 不满意）等。适宜使用大小渐变、饱和度等通道来编码。
- 定量型（Quantitative） ：具有实际的数值含义，可以进行数学运算。在定量型内部，课程进一步区分了两种子类型：
  - 定距型（Interval） ：数值之间的差值具有实际意义，但零点位置是人为选定的，不具有绝对零点的含义。因此，只能比较两个数值之间的间距（差值），而不能比较比率。典型例子包括摄氏温度、华氏温度、日期（如1月19日）、经纬度坐标等。例如，20°C比10°C高10°C，但不能说20°C是10°C的“两倍热”，因为0°C并非热力学意义上的绝对零度。
  - 定比型（Ratio） ：具有绝对零点（即零点表示完全不存在被测实体），因此不仅可以比较差值，还可以进行比率和比例的运算。典型例子包括长度、质量、重量、数量、开尔文温度等。例如，10 kg是5 kg的两倍，该陈述在物理意义上是成立的。