从被动文档到 AI 神经系统：Metadata 在 AI+Data 时代的范式反转做了十年数据架构和 AI 系统，我对

做了十年数据架构和 AI 系统，我对 metadata（元数据）这件事的理解，最近两年发生了一次根本性的颠覆。

过去三十年，行业里所有人都在用同一个心智模型理解 metadata：它是 data 的副产品。你先有了数据，然后才需要"关于数据的数据"来描述它、管理它、追溯它。Metadata 是仓库里的标签、是图书馆里的目录卡、是数据资产的"户口本"。重要，但被动。

但当我在过去两年陆续做了几个 AI agent 系统的落地之后，我意识到一件事：在 AI agent 的世界里，这个关系正在反转。Metadata 不再是 data 的副产品——data 正在变成 metadata 的副产品。

这听起来反直觉。我先把它解释清楚，然后再讲它意味着什么。

一、Metadata 的"前 AI 时代"：三十年只做一件事，就是被动记录

要理解现在 metadata 在发生什么，得先看清它过去在做什么。

Metadata 这个概念在数据领域的演化，可以非常清晰地分成三个时代。Atlan 的创始人 Prukalpa 把它们总结为 Data Catalog 1.0、2.0、3.0，我觉得这个划分挺准确，但我用更工程化的语言重新讲一遍。

第一代（1990s-2000s）：IT 时代的元数据管理

代表产品是 Informatica Metadata Manager、IBM 的 InfoSphere、Talend。这一代 metadata 工具的本质是给 IT 部门用的数据库 schema 文档系统。

那个时代的数据世界很简单——数据主要躺在 Oracle、DB2 这种关系型数据库里，使用者主要是 IT 部门和少数业务分析师，metadata 的作用就是"告诉 IT 工程师这张表里有什么字段、字段是什么类型、谁创建的"。

它是纯文档。手工录入、批量更新、年度审计。它服务的对象是人——一个数据库管理员，需要查询某个表的结构。它和数据本身的运行完全解耦——元数据更新不及时不影响数据库继续运行。

这一代工具最大的问题是：metadata 永远是过期的。开发者改了 schema，没人去更新 metadata 系统。三个月后再去看，发现里面的描述全是错的。整个行业都接受了这个现实——metadata 是"参考资料"，不是"事实"。

第二代（2010s-2020s 上半叶）：大数据时代的数据目录

随着 Hadoop、Spark、数据湖的兴起，数据规模从 TB 跳到 PB，数据来源从几个 Oracle 库变成几百个异构系统。第一代 metadata 工具完全跟不上。

于是 LinkedIn 做了 DataHub，Lyft 做了 Amundsen，Uber 做了 Databook，Netflix 做了 Metacat，Airbnb 做了 Dataportal。这些工具基本都是大公司"自救式"的内部产物——它们解决的核心问题是**"我们公司的数据资产到底有哪些？我作为一个新员工怎么找到我需要的数据？"**

这一代 metadata 工具的几个关键升级：

从手工录入变成自动抓取（爬数据库、爬 BI 工具、爬 ETL pipeline）
从纯结构信息扩展到血缘关系（lineage） ——这张表是从哪几张表 join 出来的？
从静态文档变成带搜索引擎的产品（用 Elasticsearch 做全文检索）
从只服务 IT 扩展到服务数据分析师、数据科学家、产品经理

但这一代工具有个根本性的局限：它依然是**"被动的、用于人类查询的"**。一个数据分析师有需求 → 去 catalog 里搜 → 找到表 → 写 SQL。整个流程的发起方是人，metadata 只是中间的"导航工具"。

数据的运行（pipeline 跑批、模型训练、查询执行）和 metadata 的更新依然是两条独立的轨道。pipeline 跑得再快，metadata 还是周期性同步、有时差、有遗漏。

第三代（2020s 中-至今）：Active Metadata 的崛起

这一代的核心变化是 Gartner 在 2021 年提出的概念——Active Metadata（活元数据） 。

什么叫 active？简单说就是 metadata 不再是被动的"记录层"，而是主动的"操作层"。

具体表现：

Metadata 通过事件流（Kafka、CDC）实时更新，schema 变化几秒内传播到整个系统
Metadata 不只是给人看的，机器（pipeline、监控、治理工具）也在消费它
Metadata 开始反向驱动数据基础设施——比如基于 lineage 自动判断"这个上游表挂了，下游哪些 dashboard 受影响，自动通知所有 owner"
Metadata 开始介入数据质量——schema drift、数据分布异常、SLA 违约都被 metadata 系统捕捉

代表产品：Atlan、Acryl Data（DataHub 商业版）、Collate（OpenMetadata 商业版）、Monte Carlo（数据可观测性方向）。

这一代工具让 metadata 第一次有了**"数据基础设施神经系统"**的味道。它不再只是文档，开始变成 control plane。

但即便到了 active metadata 这个阶段，metadata 的服务对象依然主要是人。整个设计假设是：人需要更快、更准确地找到数据，metadata 帮人做这件事。

这个假设，正在被 AI agent 颠覆。

二、AI Agent 时代的根本变化：Metadata 第一次成为"主消费者"的对话语言

让我先讲一个真实场景，你立刻就能 get 到这个转变的重量。

我前段时间帮一家金融公司做内部 AI agent 落地，agent 的任务是回答业务方的临时数据问题——"东南区上个季度的销售额下降了多少"、"这个产品线的退货率为什么突然变高"这种。

第一版我们用了最常规的 text-to-SQL 方案：用户提问 → LLM 转 SQL → 在数据仓库执行 → 返回结果。

跑了两周，准确率不到 40%。

问题出在哪里？不是 LLM 写不好 SQL，是 LLM 不知道这家公司的业务到底是什么。

具体说：

公司里有 6 张表都叫"销售相关"，到底用哪一张？（不同表口径完全不同）
"东南区"在这家公司是按哪个字段定义的？省份？大区代码？运营单元？
"销售额"是含税还是不含税？是已开票还是已回款？
这张表上次更新是什么时候，现在用来回答"上季度"的问题，数据完整吗？
这张表谁是 owner，他给这张表打了什么 quality tag？是 certified 还是 staging？

这些问题，人类分析师靠多年经验和部门内的口口相传都能搞清楚。但 AI agent 没有部门、没有同事、没有经验——它能依赖的只有一种东西：结构化的、机器可读的、能在毫秒内被检索到的 metadata。

我们重做了系统。把所有的业务定义、字段口径、表 ownership、quality 信号、lineage 关系全部喂进了 catalog（用的是 DataHub），然后让 agent 在生成 SQL 之前先做一步**"context 检索"**——从 metadata 系统里拉出这次问题相关的所有上下文。

准确率从 40% 跳到 87%。

这次经历让我意识到一件事：

过去 metadata 是"用来帮人找数据的工具"。现在 metadata 是"AI agent 理解世界的语言"。

这两件事的难度根本不在一个量级。

人类分析师可以在不完整的 metadata 下工作——他们会问同事、会猜、会试错、会基于经验补全。 AI agent 不会。Agent 没有给出的 context 之外的任何理解。它的全部认知边界就是你给它的 metadata 边界。

这就是 DataHub 在 2025 年底提出的概念——Context Management——的本质。他们的判断很直接：在 agent 时代，metadata 的真正使命是成为"context 层"，让 AI 系统能够 reliably 地理解企业数据。

而我自己的判断比这个更激进：metadata 在 agent 时代不只是"context 层"，它正在成为整个数据基础设施的中枢神经。

三、范式反转：为什么说 data 正在变成 metadata 的副产品

铺垫到这里，我可以把开头那个反直觉的论断展开了。

过去三十年，我们的工作流程是这样的：

业务需求 → 设计数据模型 → 建数据仓库 → 跑 pipeline → 产生数据 → 写文档 → 录入 metadata

Metadata 永远是流程的最后一步、补救步、可选步。"data first，metadata second"。

但在 AI agent 落地的真实场景里，工作流程已经悄悄变成了这样：

业务需求 → 设计 agent 任务 → 定义 agent 需要的 context → 
检查 metadata 是否完备 → 不完备的部分回头补 metadata → 
agent 跑起来 → 数据被消费、被生成、被链路化

你看到了吗？metadata 反而变成了第一公民。Agent 能不能跑、跑得好不好、跑出来的结果能不能信，根本不取决于"数据是否存在"——绝大多数公司数据都早就存在了。它取决于**"metadata 是否完备到 agent 能正确理解和使用这些数据"**。

数据是死的，metadata 是活的。数据是燃料，metadata 是导航 + 油表 + 仪表盘 + 副驾驶。没有 metadata，再多的数据对 agent 来说都是"无法消费的暗物质"。

Atlan 在 2026 年初的报告里引用了一个很扎心的数据——Gartner 预测到 2026 年，60% 的 AI 项目会被放弃，主要原因不是模型质量，是 context 和数据准备的差距。

这个数据印证了我的判断：现在所有 AI 项目失败的根本原因都不在模型——模型已经够好了——而在 metadata 层的不成熟。

更进一步的证据来自 Meta 在 2026 年 4 月发布的一篇博客（《How Meta Used AI to Map Tribal Knowledge in Large-Scale Data Pipelines》）。他们做了一件让我看完倒吸一口冷气的事：

为了让 AI agent 能正确修改一个跨 4 个 repo、3 种语言、4100+ 文件的大规模数据 pipeline，他们专门搞了一套**"50+ 个专门的 AI agent 组成的预计算引擎"**——这些 agent 唯一的工作就是去读所有代码，然后生成 59 份"compass 文件"，把工程师脑子里的"部落知识"转化成 AI 可读的结构化 context。

最后效果：AI agent 的工具调用次数减少 40%，覆盖率从 5% 提升到 100%。

这件事说明了什么？

在 Meta 这种顶级技术公司里，他们已经开始投入巨大的工程资源，专门为 AI agent 生产 metadata。

不是为了人。是为了 agent。

这是范式反转的最清晰证据——metadata 的生产，已经从"数据团队的副业"变成了"AI 项目的主线工作" 。

四、Active Metadata 之后是什么：Agentic Metadata

如果说第三代 metadata 的关键词是 active（活的、实时的、机器可读的），那么我判断第四代 metadata 的关键词会是 agentic（自主的、可推理的、双向交互的） 。

这不是空想。已经在发生的几个信号：

信号一：MCP（Model Context Protocol）正在成为 metadata 系统的标准接口。

DataHub 在 2026 年初已经把 MCP server 作为 metadata 系统对外的标准 API 之一。Atlan 也跟进了。这意味着以后所有的 AI agent 框架（Claude Desktop、Cursor、Cline 等等）都可以通过 MCP 直接查询企业的 metadata 系统，把它当作一个标准化的"上下文供给方"。

类比一下：metadata 系统正在变成**"企业数据的 USB-C 接口"**——任何 AI 工具都能即插即用地接入。

信号二：Metadata 系统开始嵌入 agent 自身。

DataHub 自己就在 catalog 里跑 agent，用来自动做 schema 推断、自动写表描述、自动检测异常 lineage、自动给字段打 PII 标签。Atlan 的 AI Copilot 在做同样的事。

这意味着 metadata 系统从**"被动响应人或 agent 的查询"变成了"主动产出和维护自己的 metadata"**。

Metadata 系统变成了一个 agent。它不只是 agent 的食物，它本身也在思考、产出、判断。

信号三：Context Engineer 正在变成一个独立工种。

DataHub 的 2026 State of Context Management 报告里有一个数据——95% 的数据团队计划在 2026 年投资 context engineering 培训。

什么叫 context engineer？简单说就是**"AI agent 的数据架构师"**。这个角色的工作不是写 SQL、不是建数据仓库、不是搭 pipeline，而是设计"agent 应该看到什么 context、什么时候看到、看到的 context 如何被维护更新、如何在多步推理中动态裁剪"。

我个人判断，未来 3 年内这个工种的薪资会反超传统数据工程师，因为它直接决定了一家公司 AI 项目的成败。

信号四：Metadata 本身正在变成 big data。

这是一个很多人没意识到但极其重要的事——当 metadata 开始记录每一次数据访问、每一次 agent 调用、每一次 pipeline 执行、每一个 column 的使用频率、每一个用户的行为轨迹时，metadata 自己就变成了 PB 级别的数据。

Atlan 已经在用 Apache Iceberg 来做"metadata lakehouse"——把所有 metadata 当 big data 来存储和查询。这是一个工程范式的重大转变：以前 metadata 是 small data（几 GB 的关系型表），现在 metadata 是 big data（需要分布式计算来分析）。

这意味着 metadata 系统的技术栈正在向数据仓库技术栈靠拢——列存、流处理、向量化引擎、湖仓架构、SQL 引擎。

五、未来 3 年的几个确定性判断

基于上面的分析，我对 metadata 在 AI+Data 领域未来 3 年的演化做几个相对锋利的判断。

判断一：Metadata 系统会成为企业 AI 战略的胜负手，而不是数据治理的副业。

过去 metadata 系统的预算来自 CDO（首席数据官），是数据治理项目的一部分。未来 metadata 系统的预算会越来越多来自 CAIO（首席 AI 官），是 AI 项目能否落地的前置条件。

这不是夸张。没有完备的 metadata 层，企业里所有的 AI agent 都只能停留在 demo 阶段。这个事实会逼着 metadata 系统从"成本中心"升级成"AI 战略基础设施"。

判断二："Context Layer"会成为继 Data Lake、Data Lakehouse 之后的下一个企业数据基础设施层。

我们已经经历过几次企业数据架构的范式变化：

1990s：Data Warehouse（面向报表）
2010s：Data Lake（面向多样化数据）
2020s：Data Lakehouse（融合分析与机器学习）
2026+：Context Layer（面向 AI agent）

Context Layer 不是替代 lakehouse，是建在 lakehouse 之上的新一层——专门用于服务 AI agent 的语义、治理、上下文供给。

未来 3 年，所有 Top 1000 的企业都会有一个"Chief Context Architect"或类似角色，专门负责 context layer 的建设。这个角色今天还不存在，但 12 个月内会出现，36 个月内会标配。

判断三：Metadata 的"消费者"会发生结构性转移——从人为主，到机器为主。

今天 metadata 系统的查询量，可能 95% 是人发起的（数据分析师在 catalog 里搜表）。

3 年后，这个比例会反过来——95% 的查询是 AI agent 发起的，5% 是人。

这个转变会带来 metadata 系统设计的根本性变化：

从"UI 优先"变成"API 优先"
从"自然语言搜索"变成"结构化 context 检索"
从"信息呈现"变成"上下文供给"
从"被人浏览"变成"被 agent 消费"

做 metadata 工具的产品经理，如果还在围绕"怎么让人更好地搜数据"做产品，三年后会被淘汰。

判断四：开源和闭源的格局会形成"双层结构"。

底层（metadata 存储、ingestion、API）会越来越开源——DataHub、OpenMetadata、Apache Atlas 这些会持续主导。上层（agent 能力、context 编排、AI 治理）会出现新的闭源商业玩家——Atlan、Acryl、Collate 已经在卡位，未来会有更多。

这个格局类似数据库领域：底层引擎开源（PostgreSQL、Redis），上层服务商业化（Snowflake、Databricks）。

判断五：传统数据工程师的最大转型机会窗口，是接下来 18 个月。

Context engineering 这个新工种，最有竞争力的人选不是来自 AI 圈，是来自数据工程圈。原因很简单——

做 context engineering 需要的核心能力是：理解企业数据是怎么组织的、各个表的真实业务含义、数据质量陷阱在哪里、不同数据系统如何串联。

这些能力，AI 工程师没有。但每一个有 5 年以上经验的数据工程师都有。

如果你是一个做了 5-10 年数据的人，现在主动转型去做 AI 时代的 context engineering，未来 3 年的薪资和机会会显著好于继续做传统数据工程。

但这个窗口期不会太长——2 年后这个角色会被新一代 AI-native 的人才填满，传统数据工程师的转型优势会消失。

六、给读者的可操作建议

文章写到这里如果只是给判断不给建议，是不负责任的。最后给三条具体的、今天就能开始做的事。

给数据工程师：从今天起，把你写的每一段 SQL、每一个 dbt 模型、每一个 pipeline，都加上**"AI agent 友好"的元数据**。表注释要详细，字段口径要清晰，业务定义要落到 documentation 里。这些东西过去是"加分项"，未来是"准入门槛"。

给做 AI 应用的人：停止在 prompt 里硬编码业务上下文。把所有的业务知识沉淀到 metadata 系统里，让你的 agent 在运行时去查询。这样做的好处是 prompt 短了、维护成本低了、知识可复用了，唯一的代价是前期搭建一个 context layer——这个代价两个月内就能回本。

给做技术决策的 leader：把企业里"数据治理"和"AI 项目"两条原本平行的预算线合并。它们不再是两件事——AI 项目能否成功，本质上就取决于数据治理的成熟度。把 metadata 投资当成 AI 投资来做。

收尾

回到开头的论断——data 正在变成 metadata 的副产品。

这句话听起来有点夸张。但如果你站在一个 AI agent 的视角看这个世界——它面对的是一个由 metadata 定义的数据宇宙，data 本身只是当 metadata 指向某个具体记录时被实例化出来的东西——你会发现这个表述其实极其准确。

过去三十年，我们建设的所有数据基础设施都是围绕一个假设：最终消费者是人。未来三十年，所有的数据基础设施会围绕一个新假设重建：最终消费者是 AI agent。

而连接这两个时代的关键基础设施，叫 metadata。

它过去是仓库角落的目录卡片。它现在是企业 AI 战略的中枢神经。它未来会是整个数字社会的语义底层。

整个行业正在经历一次悄无声息但极其深刻的范式反转。

懂的人，已经开始动了。