转录以自学

13 阅读10分钟

数据是客观事物的符号记录,是信息的可再处理和解释的形式化表示,以适应于数据的通信、解释或处理。元数据是用来描述数据的数据,是对数据的更高层级抽象,是认识和管理数据的一种媒介和途径,其使用目的在于 :识别资源、描述资源、评价资源、追踪资源等,实现数据资源的有效发现、理解、组织和管理等。数据反映了真实世界的对象、事件、活动和关系,而元数据则反映了数据的结构、特征、关系、管理等。 [3]**

元数据被定义为:描述数据的数据,对数据及信息资源的描述性信息。

元数据(Metadata)是描述其它数据的数据(data about other data),或者说是用于提供某种资源的有关信息的结构数据(structured data)。元数据是描述信息资源或数据等对象的数据,其使用目的在于:识别资源;评价资源;追踪资源在使用过程中的变化;实现简单高效地管理大量网络化数据;实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理。 元数据的基本特点主要有:

1.元数据一经建立,便可共享。元数据的结构和完整性依赖于信息资源的价值和使用环境;元数据的开发与利用环境往往是一个变化的分布式环境;任何一种格式都不可能完全满足不同团体的不同需要;

2.元数据首先是一种编码体系。元数据是用来描述数字化信息资源,特别是网络信息资源的编码体系,这导致了元数据和传统数据编码体系的根本区别;元数据的最为重要的特征和功能是为数字化信息资源建立一种机器可理解框架。

元数据体系构建了电子政务的逻辑框架和基本模型,从而决定了电子政务的功能特征、运行模式和系统运行的总体性能。电子政务的运作都基于元数据来实现。其主要作用有:描述功能、整合功能、控制功能和代理功能。

由于元数据也是数据,因此可以用类似数据的方法在数据库中进行存储和获取。如果提供数据元的组织同时提供描述数据元的元数据,将会使数据元的使用变得准确而高效。用户在使用数据时可以首先查看其元数据以便能够获取自己所需的信息。

分类

在国际上,元数据的标准研究一直非常活跃,并随着数据建模、Web 互联网、大数据等技术的发展同步发展。2019 年 ISO 发布的 ISO/IEC 19583-1:2019 Information technology - Concepts and usage of metadata Part 1: Metadata concepts 中规定,根据元数据的功能不同,主要可以将元数据分为结构元数据、描述性元数据和管理元数据 3 类。 [3]**

数据仓库

数据仓库领域中,元数据按用途分成技术元数据和业务元数据。首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。其次,元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:

(1)描述哪些数据在数据仓库中;

(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;

(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;

(4)记录并检测系统数据一致性的要求和执行情况;

(5)衡量数据质量。

软件构造

软件构造领域的定义在软件构造领域,元数据被定义为:在程序中不是被加工的对象,而是通过其值的改变来改变程序的行为的数据。它在运行过程中起着以解释方式控制程序行为的作用。在程序的不同位置配置不同值的元数据,就可以得到与原来等价的程序行为。

图书信息

在图书馆与信息界,元数据被定义为:提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述。其作用为:描述信息资源或数据本身的特征和属性,规定数字化信息的组织,具有定位、发现、证明、评估、选择等功能。

一般认为,所谓元数据是关于数据的数据,或关于数据的结构化的数据。从已有的结论看,元数据的含义是逐渐发展的。元数据一词,早期主要指网络资源的描述数据,用于网络信息资源的组织;其后,逐步扩大到各种以电子形式存在的信息资源的描述数据。元数据这一术语实际用于各种类型信息资源的描述记录。

此外,元数据在地理界,生命科学界等领域也有其相应的定义和应用。

特点

播报

编辑

①元数据是关于数据的结构化的数据,它不一定是数字形式的,可来自不同的资源。 [1]**

②元数据是与对象相关的数据,此数据使其潜在的用户不必先具备对这些对象的存在和特征的完整认识。 [1]**

③元数据是对信息包裹(Information Package)的编码的描述。 [1]**

④元数据包含用于描述信息对象的内容和位置的数据元素集,促进了网络环境中信息对象的发现和检索。 [1]**

⑤元数据不仅对信息对象进行描述,还能够描述资源的使用环境、管理加工、保存和使用等方面的情况。 [1]**

⑥在信息对象或系统的生命周期中自然增加元数据。 [1]**

⑦元数据常规定义中的“数据”是表示事务性质的符号,是进行各种统计、计算、科学研究、技术设计所依据的数值,或是说数字化、公式化、代码化、图表化的信息。 [1]**

优点

对于一种更简单的编程模型来说,元数据是关键,该模型不再需要接口定义语言 (IDL) 文件、头文件或任何外部组件引用方法。元数据允许 .NET 语言自动以非特定语言的方式对其自身进行描述,而这是开发人员和用户都无法看见的。另外,通过使用属性,可以对元数据进行扩展。元数据具有以下主要优点:

自描述

公共语言运行库模块和程序集是自描述的。模块的元数据包含与另一个模块进行交互所需的全部信息。元数据自动提供 COM 中 IDL 的功能,允许将一个文件同时用于定义和实现。运行库模块和程序集甚至不需要向操作系统注册。结果,运行库使用的说明始终反映编译文件中的实际代码,从而提高应用程序的可靠性。

设计

元数据提供所有必需的有关已编译代码的信息,以供人们从用不同语言编写的 PE 文件中继承类。人们可以创建用任何托管语言(任何面向公共语言运行库的语言)编写的任何类的实例,而不用担心显式封送处理或使用自定义的互用代码。

属性

播报

编辑

.NET Framework 允许在编译文件中声明特定种类的元数据(称为属性)。在整个 .NET Framework 中到处都可以发现属性的存在,属性用于更精确地控制运行时程序如何工作。另外,人们可以通过用户定义的自定义属性向 .NET Framework 文件发出自己的自定义元数据。有关更多信息,请参见利用属性扩展元数据。

意义

播报

编辑

说到元数据的意义,可以从其应用目的来谈的。虽然做数据仓库言必称元数据,必称技术、业务元数据,但其到底用于何处?离开了目标去谈元数据,就发现元数据包含太多的东西,因为他是描述数据的数据嘛。

还是拿客户关系系统来比喻,这个系统维护客户信息当然是有目的的,是要用这些信息进行一些自动的流程处理、去挖掘一些客户潜在的价值、做好客户服务。当然没有必要去维护客户的生命特征信息,诸如指纹、犯罪史等,这些信息跟客户关系管理的目标关系不大。元数据也是如此,可以将所有数据的结构、大小、什么时间创建、什么时间消亡、被哪些人使用等等,这些信息可以延伸得太广,如果不管目标,而试图去建一个非常完美的元数据管理体系,这是一种绝对的"自上而下"做法,必败无疑

基于应用,可以将元数据分成以下的若干种。

数据结构:数据集的名称、关系、字段、约束等;

数据部署:数据集的物理位置;

数据流:数据集之间的流程依赖关系(非参照依赖),包括数据集到另一个数据集的规则;

质量度量:数据集上可以计算的度量;

度量逻辑关系:数据集度量之间的逻辑运算关系;

ETL过程:过程运行的顺序,并行、串行;

数据集快照:一个时间点上,数据在所有数据集上的分布情况;

星型模式元数据:事实表、维度、属性、层次等;

报表语义层:报表指标的规则、过滤条件物理名称和业务名称的对应;

数据访问日志:哪些数据何时被何人访问;

质量稽核日志:何时、何度量被稽核,其结果;

数据装载日志:哪些数据何时被何人装载;

baike.baidu.com/item/%E5%85…