做了十年数据架构和 AI 系统,我对 metadata(元数据)这件事的理解,最近两年发生了一次根本性的颠覆。
过去三十年,行业里所有人都在用同一个心智模型理解 metadata:它是 data 的副产品。你先有了数据,然后才需要"关于数据的数据"来描述它、管理它、追溯它。Metadata 是仓库里的标签、是图书馆里的目录卡、是数据资产的"户口本"。重要,但被动。
但当我在过去两年陆续做了几个 AI agent 系统的落地之后,我意识到一件事:在 AI agent 的世界里,这个关系正在反转。Metadata 不再是 data 的副产品——data 正在变成 metadata 的副产品。
这听起来反直觉。我先把它解释清楚,然后再讲它意味着什么。
一、Metadata 的"前 AI 时代":三十年只做一件事,就是被动记录
要理解现在 metadata 在发生什么,得先看清它过去在做什么。
Metadata 这个概念在数据领域的演化,可以非常清晰地分成三个时代。Atlan 的创始人 Prukalpa 把它们总结为 Data Catalog 1.0、2.0、3.0,我觉得这个划分挺准确,但我用更工程化的语言重新讲一遍。
第一代(1990s-2000s):IT 时代的元数据管理
代表产品是 Informatica Metadata Manager、IBM 的 InfoSphere、Talend。这一代 metadata 工具的本质是给 IT 部门用的数据库 schema 文档系统。
那个时代的数据世界很简单——数据主要躺在 Oracle、DB2 这种关系型数据库里,使用者主要是 IT 部门和少数业务分析师,metadata 的作用就是"告诉 IT 工程师这张表里有什么字段、字段是什么类型、谁创建的"。
它是纯文档。手工录入、批量更新、年度审计。 它服务的对象是人——一个数据库管理员,需要查询某个表的结构。 它和数据本身的运行完全解耦——元数据更新不及时不影响数据库继续运行。
这一代工具最大的问题是:metadata 永远是过期的。开发者改了 schema,没人去更新 metadata 系统。三个月后再去看,发现里面的描述全是错的。整个行业都接受了这个现实——metadata 是"参考资料",不是"事实"。
第二代(2010s-2020s 上半叶):大数据时代的数据目录
随着 Hadoop、Spark、数据湖的兴起,数据规模从 TB 跳到 PB,数据来源从几个 Oracle 库变成几百个异构系统。第一代 metadata 工具完全跟不上。
于是 LinkedIn 做了 DataHub,Lyft 做了 Amundsen,Uber 做了 Databook,Netflix 做了 Metacat,Airbnb 做了 Dataportal。这些工具基本都是大公司"自救式"的内部产物——它们解决的核心问题是**"我们公司的数据资产到底有哪些?我作为一个新员工怎么找到我需要的数据?"**
这一代 metadata 工具的几个关键升级:
- 从手工录入变成自动抓取(爬数据库、爬 BI 工具、爬 ETL pipeline)
- 从纯结构信息扩展到血缘关系(lineage) ——这张表是从哪几张表 join 出来的?
- 从静态文档变成带搜索引擎的产品(用 Elasticsearch 做全文检索)
- 从只服务 IT 扩展到服务数据分析师、数据科学家、产品经理
但这一代工具有个根本性的局限:它依然是**"被动的、用于人类查询的"**。一个数据分析师有需求 → 去 catalog 里搜 → 找到表 → 写 SQL。整个流程的发起方是人,metadata 只是中间的"导航工具"。
数据的运行(pipeline 跑批、模型训练、查询执行)和 metadata 的更新依然是两条独立的轨道。pipeline 跑得再快,metadata 还是周期性同步、有时差、有遗漏。
第三代(2020s 中-至今):Active Metadata 的崛起
这一代的核心变化是 Gartner 在 2021 年提出的概念——Active Metadata(活元数据) 。
什么叫 active?简单说就是 metadata 不再是被动的"记录层",而是主动的"操作层"。
具体表现:
- Metadata 通过事件流(Kafka、CDC)实时更新,schema 变化几秒内传播到整个系统
- Metadata 不只是给人看的,机器(pipeline、监控、治理工具)也在消费它
- Metadata 开始反向驱动数据基础设施——比如基于 lineage 自动判断"这个上游表挂了,下游哪些 dashboard 受影响,自动通知所有 owner"
- Metadata 开始介入数据质量——schema drift、数据分布异常、SLA 违约都被 metadata 系统捕捉
代表产品:Atlan、Acryl Data(DataHub 商业版)、Collate(OpenMetadata 商业版)、Monte Carlo(数据可观测性方向)。
这一代工具让 metadata 第一次有了**"数据基础设施神经系统"**的味道。它不再只是文档,开始变成 control plane。
但即便到了 active metadata 这个阶段,metadata 的服务对象依然主要是人。整个设计假设是:人需要更快、更准确地找到数据,metadata 帮人做这件事。
这个假设,正在被 AI agent 颠覆。
二、AI Agent 时代的根本变化:Metadata 第一次成为"主消费者"的对话语言
让我先讲一个真实场景,你立刻就能 get 到这个转变的重量。
我前段时间帮一家金融公司做内部 AI agent 落地,agent 的任务是回答业务方的临时数据问题——"东南区上个季度的销售额下降了多少"、"这个产品线的退货率为什么突然变高"这种。
第一版我们用了最常规的 text-to-SQL 方案:用户提问 → LLM 转 SQL → 在数据仓库执行 → 返回结果。
跑了两周,准确率不到 40%。
问题出在哪里?不是 LLM 写不好 SQL,是 LLM 不知道这家公司的业务到底是什么。
具体说:
- 公司里有 6 张表都叫"销售相关",到底用哪一张?(不同表口径完全不同)
- "东南区"在这家公司是按哪个字段定义的?省份?大区代码?运营单元?
- "销售额"是含税还是不含税?是已开票还是已回款?
- 这张表上次更新是什么时候,现在用来回答"上季度"的问题,数据完整吗?
- 这张表谁是 owner,他给这张表打了什么 quality tag?是 certified 还是 staging?
这些问题,人类分析师靠多年经验和部门内的口口相传都能搞清楚。但 AI agent 没有部门、没有同事、没有经验——它能依赖的只有一种东西:结构化的、机器可读的、能在毫秒内被检索到的 metadata。
我们重做了系统。把所有的业务定义、字段口径、表 ownership、quality 信号、lineage 关系全部喂进了 catalog(用的是 DataHub),然后让 agent 在生成 SQL 之前先做一步**"context 检索"**——从 metadata 系统里拉出这次问题相关的所有上下文。
准确率从 40% 跳到 87%。
这次经历让我意识到一件事:
过去 metadata 是"用来帮人找数据的工具"。现在 metadata 是"AI agent 理解世界的语言"。
这两件事的难度根本不在一个量级。
人类分析师可以在不完整的 metadata 下工作——他们会问同事、会猜、会试错、会基于经验补全。 AI agent 不会。Agent 没有给出的 context 之外的任何理解。它的全部认知边界就是你给它的 metadata 边界。
这就是 DataHub 在 2025 年底提出的概念——Context Management——的本质。他们的判断很直接:在 agent 时代,metadata 的真正使命是成为"context 层",让 AI 系统能够 reliably 地理解企业数据。
而我自己的判断比这个更激进:metadata 在 agent 时代不只是"context 层",它正在成为整个数据基础设施的中枢神经。
三、范式反转:为什么说 data 正在变成 metadata 的副产品
铺垫到这里,我可以把开头那个反直觉的论断展开了。
过去三十年,我们的工作流程是这样的:
业务需求 → 设计数据模型 → 建数据仓库 → 跑 pipeline → 产生数据 → 写文档 → 录入 metadata
Metadata 永远是流程的最后一步、补救步、可选步。"data first,metadata second"。
但在 AI agent 落地的真实场景里,工作流程已经悄悄变成了这样:
业务需求 → 设计 agent 任务 → 定义 agent 需要的 context →
检查 metadata 是否完备 → 不完备的部分回头补 metadata →
agent 跑起来 → 数据被消费、被生成、被链路化
你看到了吗?metadata 反而变成了第一公民。Agent 能不能跑、跑得好不好、跑出来的结果能不能信,根本不取决于"数据是否存在"——绝大多数公司数据都早就存在了。它取决于**"metadata 是否完备到 agent 能正确理解和使用这些数据"**。
数据是死的,metadata 是活的。 数据是燃料,metadata 是导航 + 油表 + 仪表盘 + 副驾驶。 没有 metadata,再多的数据对 agent 来说都是"无法消费的暗物质"。
Atlan 在 2026 年初的报告里引用了一个很扎心的数据——Gartner 预测到 2026 年,60% 的 AI 项目会被放弃,主要原因不是模型质量,是 context 和数据准备的差距。
这个数据印证了我的判断:现在所有 AI 项目失败的根本原因都不在模型——模型已经够好了——而在 metadata 层的不成熟。
更进一步的证据来自 Meta 在 2026 年 4 月发布的一篇博客(《How Meta Used AI to Map Tribal Knowledge in Large-Scale Data Pipelines》)。他们做了一件让我看完倒吸一口冷气的事:
为了让 AI agent 能正确修改一个跨 4 个 repo、3 种语言、4100+ 文件的大规模数据 pipeline,他们专门搞了一套**"50+ 个专门的 AI agent 组成的预计算引擎"**——这些 agent 唯一的工作就是去读所有代码,然后生成 59 份"compass 文件",把工程师脑子里的"部落知识"转化成 AI 可读的结构化 context。
最后效果:AI agent 的工具调用次数减少 40%,覆盖率从 5% 提升到 100%。
这件事说明了什么?
在 Meta 这种顶级技术公司里,他们已经开始投入巨大的工程资源,专门为 AI agent 生产 metadata。
不是为了人。是为了 agent。
这是范式反转的最清晰证据——metadata 的生产,已经从"数据团队的副业"变成了"AI 项目的主线工作" 。
四、Active Metadata 之后是什么:Agentic Metadata
如果说第三代 metadata 的关键词是 active(活的、实时的、机器可读的),那么我判断第四代 metadata 的关键词会是 agentic(自主的、可推理的、双向交互的) 。
这不是空想。已经在发生的几个信号:
信号一:MCP(Model Context Protocol)正在成为 metadata 系统的标准接口。
DataHub 在 2026 年初已经把 MCP server 作为 metadata 系统对外的标准 API 之一。Atlan 也跟进了。这意味着以后所有的 AI agent 框架(Claude Desktop、Cursor、Cline 等等)都可以通过 MCP 直接查询企业的 metadata 系统,把它当作一个标准化的"上下文供给方"。
类比一下:metadata 系统正在变成**"企业数据的 USB-C 接口"**——任何 AI 工具都能即插即用地接入。
信号二:Metadata 系统开始嵌入 agent 自身。
DataHub 自己就在 catalog 里跑 agent,用来自动做 schema 推断、自动写表描述、自动检测异常 lineage、自动给字段打 PII 标签。Atlan 的 AI Copilot 在做同样的事。
这意味着 metadata 系统从**"被动响应人或 agent 的查询"变成了"主动产出和维护自己的 metadata"**。
Metadata 系统变成了一个 agent。它不只是 agent 的食物,它本身也在思考、产出、判断。
信号三:Context Engineer 正在变成一个独立工种。
DataHub 的 2026 State of Context Management 报告里有一个数据——95% 的数据团队计划在 2026 年投资 context engineering 培训。
什么叫 context engineer?简单说就是**"AI agent 的数据架构师"**。这个角色的工作不是写 SQL、不是建数据仓库、不是搭 pipeline,而是设计"agent 应该看到什么 context、什么时候看到、看到的 context 如何被维护更新、如何在多步推理中动态裁剪"。
我个人判断,未来 3 年内这个工种的薪资会反超传统数据工程师,因为它直接决定了一家公司 AI 项目的成败。
信号四:Metadata 本身正在变成 big data。
这是一个很多人没意识到但极其重要的事——当 metadata 开始记录每一次数据访问、每一次 agent 调用、每一次 pipeline 执行、每一个 column 的使用频率、每一个用户的行为轨迹时,metadata 自己就变成了 PB 级别的数据。
Atlan 已经在用 Apache Iceberg 来做"metadata lakehouse"——把所有 metadata 当 big data 来存储和查询。这是一个工程范式的重大转变:以前 metadata 是 small data(几 GB 的关系型表),现在 metadata 是 big data(需要分布式计算来分析)。
这意味着 metadata 系统的技术栈正在向数据仓库技术栈靠拢——列存、流处理、向量化引擎、湖仓架构、SQL 引擎。
五、未来 3 年的几个确定性判断
基于上面的分析,我对 metadata 在 AI+Data 领域未来 3 年的演化做几个相对锋利的判断。
判断一:Metadata 系统会成为企业 AI 战略的胜负手,而不是数据治理的副业。
过去 metadata 系统的预算来自 CDO(首席数据官),是数据治理项目的一部分。 未来 metadata 系统的预算会越来越多来自 CAIO(首席 AI 官),是 AI 项目能否落地的前置条件。
这不是夸张。没有完备的 metadata 层,企业里所有的 AI agent 都只能停留在 demo 阶段。这个事实会逼着 metadata 系统从"成本中心"升级成"AI 战略基础设施"。
判断二:"Context Layer"会成为继 Data Lake、Data Lakehouse 之后的下一个企业数据基础设施层。
我们已经经历过几次企业数据架构的范式变化:
- 1990s:Data Warehouse(面向报表)
- 2010s:Data Lake(面向多样化数据)
- 2020s:Data Lakehouse(融合分析与机器学习)
- 2026+:Context Layer(面向 AI agent)
Context Layer 不是替代 lakehouse,是建在 lakehouse 之上的新一层——专门用于服务 AI agent 的语义、治理、上下文供给。
未来 3 年,所有 Top 1000 的企业都会有一个"Chief Context Architect"或类似角色,专门负责 context layer 的建设。这个角色今天还不存在,但 12 个月内会出现,36 个月内会标配。
判断三:Metadata 的"消费者"会发生结构性转移——从人为主,到机器为主。
今天 metadata 系统的查询量,可能 95% 是人发起的(数据分析师在 catalog 里搜表)。
3 年后,这个比例会反过来——95% 的查询是 AI agent 发起的,5% 是人。
这个转变会带来 metadata 系统设计的根本性变化:
- 从"UI 优先"变成"API 优先"
- 从"自然语言搜索"变成"结构化 context 检索"
- 从"信息呈现"变成"上下文供给"
- 从"被人浏览"变成"被 agent 消费"
做 metadata 工具的产品经理,如果还在围绕"怎么让人更好地搜数据"做产品,三年后会被淘汰。
判断四:开源和闭源的格局会形成"双层结构"。
底层(metadata 存储、ingestion、API)会越来越开源——DataHub、OpenMetadata、Apache Atlas 这些会持续主导。 上层(agent 能力、context 编排、AI 治理)会出现新的闭源商业玩家——Atlan、Acryl、Collate 已经在卡位,未来会有更多。
这个格局类似数据库领域:底层引擎开源(PostgreSQL、Redis),上层服务商业化(Snowflake、Databricks)。
判断五:传统数据工程师的最大转型机会窗口,是接下来 18 个月。
Context engineering 这个新工种,最有竞争力的人选不是来自 AI 圈,是来自数据工程圈。原因很简单——
做 context engineering 需要的核心能力是:理解企业数据是怎么组织的、各个表的真实业务含义、数据质量陷阱在哪里、不同数据系统如何串联。
这些能力,AI 工程师没有。但每一个有 5 年以上经验的数据工程师都有。
如果你是一个做了 5-10 年数据的人,现在主动转型去做 AI 时代的 context engineering,未来 3 年的薪资和机会会显著好于继续做传统数据工程。
但这个窗口期不会太长——2 年后这个角色会被新一代 AI-native 的人才填满,传统数据工程师的转型优势会消失。
六、给读者的可操作建议
文章写到这里如果只是给判断不给建议,是不负责任的。最后给三条具体的、今天就能开始做的事。
给数据工程师:从今天起,把你写的每一段 SQL、每一个 dbt 模型、每一个 pipeline,都加上**"AI agent 友好"的元数据**。表注释要详细,字段口径要清晰,业务定义要落到 documentation 里。这些东西过去是"加分项",未来是"准入门槛"。
给做 AI 应用的人:停止在 prompt 里硬编码业务上下文。把所有的业务知识沉淀到 metadata 系统里,让你的 agent 在运行时去查询。这样做的好处是 prompt 短了、维护成本低了、知识可复用了,唯一的代价是前期搭建一个 context layer——这个代价两个月内就能回本。
给做技术决策的 leader:把企业里"数据治理"和"AI 项目"两条原本平行的预算线合并。它们不再是两件事——AI 项目能否成功,本质上就取决于数据治理的成熟度。把 metadata 投资当成 AI 投资来做。
收尾
回到开头的论断——data 正在变成 metadata 的副产品。
这句话听起来有点夸张。但如果你站在一个 AI agent 的视角看这个世界——它面对的是一个由 metadata 定义的数据宇宙,data 本身只是当 metadata 指向某个具体记录时被实例化出来的东西——你会发现这个表述其实极其准确。
过去三十年,我们建设的所有数据基础设施都是围绕一个假设:最终消费者是人。 未来三十年,所有的数据基础设施会围绕一个新假设重建:最终消费者是 AI agent。
而连接这两个时代的关键基础设施,叫 metadata。
它过去是仓库角落的目录卡片。 它现在是企业 AI 战略的中枢神经。 它未来会是整个数字社会的语义底层。
整个行业正在经历一次悄无声息但极其深刻的范式反转。
懂的人,已经开始动了。