数据抽象与类型:从结构化到非结构化,数据分类的基本框架(学习笔记)

0 阅读11分钟

说明:本文是对北京大学公开课《数据可视化》(共63讲)中“数据抽象与类型,数据集类型,数据基本类型,属性类型”部分的学习内容整理。作为一种课堂笔记的书面化尝试,旨在梳理基本概念和分类框架,供参考与交流。


在数据可视化与分析实践中,对数据本身的理解是开展后续工作的基础。数据可以依据组织形式、属性特征和语义关系进行多层次的分类。以下内容围绕数据集类型、基本构成单元以及属性类型三个层面展开。


一、数据集类型:结构化与非结构化

从数据集的整体组织形式来看,可以区分为两大类:

  • 结构化数据:具有已知的数据类型和明确的语义,通常以关系型数据库或表格形式存储,便于直接查询和分析。
  • 非结构化数据:没有预定义的数据模型,常见形式包括文字、视频、图像、音频等。这类数据无法直接置入二维表格,但可通过技术手段转化为结构化形式。

例如,借助自然语言处理,可以将文字转换为高维向量表示,再通过关键词提取与词频统计,实现对文本的量化分析,进而支持情感判别、主题识别或关联挖掘(如发现不同菜谱间共享的配料,从而构建网络关系)。


二、数据集类型的常见分类

​编辑

根据数据组织方式的差异,数据集可大致分为以下五类:

1. 表格数据集

表格是最常见的数据组织形式,其中每一行对应一个样本(数据项),每一列对应一个属性(特征)。

​编辑

表格数据的可视化方法较为多样,其中重要的一类面向高维数据(即每个样本由多个数值特征描述)。

​编辑

典型方法包括平行坐标图、散点图矩阵等,用于展示样本在各维度上的分布及特征间的相关性。实际应用中,表格可用于呈现期刊在不同年份的论文发表量、候选人名单等信息。

​编辑

​编辑

2. 图/网络数据集

图结构由顶点(节点)和(连接)构成。简单图不包含多重边且无自环。

​编辑这类数据广泛应用于社交网络、知识图谱、交通网络等场景。可视化常采用力导向布局、层次布局等方法,以展示节点间的关联结构与聚类特征。

​编辑

在图数据中,根据边和结构的性质,可进一步区分若干特殊类型:

  • 有向图(Digraph) :边具有方向性,即边 A→B 与 B→A 被视为不同的连接关系。有向图适用于表示具有流向、因果关系或单向依赖的场景,如网页超链接、引用关系、微博关注等。
  • 树(Tree) :是一种无环的连通图,任意两个节点之间仅存在唯一路径。树结构广泛用于层次数据,如组织架构、文件目录、分类体系等。其可视化常采用径向布局或树状图。
  • 超图(Hypergraph) :允许一条边连接任意数量的顶点,而非仅限于两个。超图能够刻画多元关系,如一篇论文由多位作者共同完成、一个商品属于多个类别等场景。在可视化中,超图常通过集合圈或高亮区域来表示超边。

​编辑这些特殊类型在图论和可视化中有各自专用的布局与编码方法,根据数据本身的语义选择合适的表示方式至关重要。

3. 场数据集

场数据用于描述连续空间上的物理量分布,如温度场、磁场、风速场等。其类型可细分为标量场、矢量场、张量场等。

​编辑

相应的可视化手段包括等值线图、颜色映射、流线图、箭头图等,常用于科学计算与工程仿真领域。

​编辑

在场数据的离散化表示中,网格是采样与存储的基础结构。根据网格几何形态和组织方式的不同,可进一步区分为以下四种常见类型:

  • 单一网格(Uniform Grid) :所有网格单元在空间各方向上具有相同的尺寸,采样点均匀分布。该结构简单规则,便于直接计算几何属性和拓扑关系,适用于规则区域内的场数据。
  • 直线网格(Rectilinear Grid) :网格线仍为直线,但采样间距可以在不同方向上非均匀设置,即各方向上的步长可以独立变化。这种结构允许在变化剧烈的区域加密采样,而在平缓区域稀疏采样,以提高存储和计算效率。
  • 结构化网格(Structured Grid) :网格线可以是曲线,以适应复杂几何边界,但网格的拓扑结构仍是规则的——每个内部节点具有相同数量的相邻节点,形成逻辑上的矩形或六面体排列。此类网格在计算流体力学等领域较为常见。
  • 非结构化网格(Unstructured Grid) :网格单元的形状和连接关系完全灵活,没有规则的拓扑约束。每个顶点的位置及其与其他顶点的连接关系需要显式存储。这种网格能够拟合任意形状的几何区域,但数据管理和后续计算的开销相对较大,通常应用于复杂地形或不规则边界问题。

​编辑

这四种网格类型在实际应用中根据数据特性和计算需求进行选择,各自在灵活性和计算效率上有所取舍。

4. 几何数据集

此类数据描述空间中的几何形状或运动轨迹,例如车辆行驶轨迹、三维点云、建筑物轮廓等。这类数据通常兼具空间与时间属性,属于典型的时空数据,适合采用轨迹图、三维渲染或动态动画进行呈现。

​编辑

5. 其他数据集类型

除上述四类外,还存在多模态数据、层次数据、时序数据等混合或特殊类型,往往需要结合多种可视化方法进行综合展示。

​编辑


三、数据的基本构成单元

无论数据集属于何种类型,都可以从更基础的层面加以理解:

  • 数据项(Item) :数据集中独立的实体,通常是离散的个体,例如一名患者、一辆汽车、一只股票或一个城市。在表格中,每一行通常对应一个数据项。
  • 链接(Link) :定义数据项之间的关联关系。这种关系可以灵活定义,既可以是基于属性相似度等共性的衍生关系,也可以是物理或逻辑上的直接联系(如引用、空间邻接、社交关注等)。在图中,链接即为边。
  • 属性(Attribute) :通过对数据项进行测量、观察或记录而获得的特征,例如患者的身高与血压、汽车的马力与制造商等。在表格中,每一列对应一个属性。属性的类型(定类、定序、定距、定比)决定了可对其施加的运算和适用的视觉通道。
  • 位置(Position) :用于描述数据在空间中的定位信息,通常为坐标(如经纬度、三维空间中的 x,y,z)。位置是几何数据与场数据的核心要素,也是许多可视化布局的基础。
  • 网格(Grid) :在空间连续数据的离散化采样中,网格定义了采样点的组织结构。网格可以是均匀的、非均匀的、结构化的或非结构化的,具体类型已在前文“场数据集”中详述。

四、属性类型及其对操作的约束

决定数据可被如何操作、以及可通过哪些视觉通道加以编码的,是属性类型。根据属性的度量尺度,可进行如下划分:

  • 定类型(Categorical) :用于区分不同类别,但不具备内在的顺序或数值意义。可进行的操作主要是判断相等或不相等。典型例子包括水果种类、性别、电影类型、文件格式等。在可视化中,这类属性适宜使用颜色、形状等视觉通道进行区分。

  • 有序型(Ordered) :属性值之间存在顺序关系,可进一步分为两种:

    • 定序型(Ordinal) :可以比较大小或排序,但值之间的差值不具备数学意义。例如排名(第一、第二、第三)、教育程度(小学 < 中学 < 大学)、调查中的满意度等级(满意 < 一般 < 不满意)等。适宜使用大小渐变、饱和度等通道来编码。

    • 定量型(Quantitative) :具有实际的数值含义,可以进行数学运算。在定量型内部,课程进一步区分了两种子类型:

      • 定距型(Interval) :数值之间的差值具有实际意义,但零点位置是人为选定的,不具有绝对零点的含义。因此,只能比较两个数值之间的间距(差值),而不能比较比率。典型例子包括摄氏温度、华氏温度、日期(如1月19日)、经纬度坐标等。例如,20°C比10°C高10°C,但不能说20°C是10°C的“两倍热”,因为0°C并非热力学意义上的绝对零度。
      • 定比型(Ratio) :具有绝对零点(即零点表示完全不存在被测实体),因此不仅可以比较差值,还可以进行比率和比例的运算。典型例子包括长度、质量、重量、数量、开尔文温度等。例如,10 kg是5 kg的两倍,该陈述在物理意义上是成立的。

上述分类可归纳为:定类型 → 有序型 → 定序型 / 定量型(定距型 + 定比型)。这一分类方式与统计学中的名义尺度、顺序尺度、区间尺度和比率尺度大致对应。

不同属性类型对应不同的视觉通道选择。若通道选用不当,可能影响图表的准确解读。例如,使用折线图连接定类数据(如不同水果的销量)可能会误导读者认为类别之间存在连续变化关系;而使用面积编码定量数据时,若面积与数值不成线性比例,也可能造成视觉偏差。

​编辑

​编辑

​编辑


五、从实例理解数据结构

以典型表格数据为例,每一行是一个独立的数据项(样本),每一列对应一个属性。理解各属性的类型(数值型、分类型、时间型等)是进行数据清洗、统计分析与可视化设计的必要前提。

在实际项目中,常需将非结构化数据(如文本、图像)转换为结构化表格,再依据属性类型确定后续建模与展示方案。整个数据抽象体系可视为从原始数据到可视化表达之间的一个基础性环节。

课程中的一些实例:

​编辑

​编辑

​编辑

​编辑


结语

对数据抽象与类型的基本理解,有助于在实际工作中更系统地审视数据。在处理新的数据集时,可以从以下几个角度进行初步观察:

  • 该数据是结构化的还是非结构化的?
  • 其组织形式更接近表格、图、场、几何,还是其他类型?
  • 各属性的类型分别是什么?允许哪些基本运算?
  • 数据项之间是否存在可定义的链接关系?

以上是对该课程相关内容的一次学习整理,限于个人理解,如有不准确之处,欢迎交流指正。

课程来源
本文根据北京大学公开课《数据可视化》(共63讲)的学习笔记整理而成,课程链接:
【公开课】北京大学:数据可视化