AI + Data中的 Semantic View：从语义层到 AI 可用的“业务语言”面向读者：数据平台/数仓/湖仓架

面向读者：数据平台/数仓/湖仓架构师、数据工程师、分析工程师、AI 应用工程师、数据治理负责人

背景：为什么“语义”成了 AI 时代的数据平台刚需传统 BI 时代，数据团队最常见的内耗之一就是：同一个指标，不同团队算出不同结果。

到了 GenAI / Agentic Analytics 这波浪潮，这个坑不但没消失，反而更容易被放大：

业务同学问一句“本季度 NRR 多少？”

BI 报表给出一个数字

数据科学同学在 Notebook 里算出另一个

LLM 做 Text-to-SQL 又吐出第三个数字，还能顺便写一段听起来很“像那么回事”的解释

很多时候锅不在工具，而在更基础的东西：

业务概念没有以结构化方式沉淀成可复用资产

语义没有变成平台级资产（平台原生、可治理、可发布）

说得直白一点：组织需要一层稳定的“翻译器”，把业务语言和数据的物理结构（表、字段、Join 、过滤、权限）对齐起来，并且让 BI、数据应用、AI/Agent 都复用同一套定义。

本文要聊的核心就是：Semantic View。

Semantic View 是什么？不是普通 View，也不只是“指标层” 2.1 定义（从平台视角看）你可以把 Semantic View 理解为：

Semantic View（语义视图），本质上是在数据之上加一层“可理解的业务语义层”，把底层复杂的数据结构（表、字段、Join、计算逻辑）抽象成业务可读、可复用的指标与维度。

一个像样的 Semantic View，通常至少要解决这些事：

抽象：把物理表结构抽象成业务对象（指标、维度、实体关系）

一致：指标定义一次，多工具复用，少写一堆重复 SQL

可治理：权限、审计、血缘、认证等跟着语义对象走

AI 就绪：给机器一份“读得懂、查得到”的业务上下文，别让模型靠猜

2.2 和普通 SQL View / Dataset 的差别维度普通 SQL View 语义 View（Semantic View）目标复用查询 / 简化 SQL 统一业务语义 + 多消费面输出一致指标可重用性指标常写死在 select / group by 指标定义与维度分组解耦，运行时按任意维度切片 Join 管理依赖使用者手写关系声明是模型的一部分，可复用/可推导治理主要靠底层表/视图权限语义对象可携带治理与元数据（owner、certification、policy、audit） AI 友好性 LLM 仍要理解字段含义/Join 路径提供“业务词典 + 指标定义 + 同义词 + guardrails” 2.3 语义层、指标层、语义 View：怎么把这些名词放回正确位置行业里叫法很多：Semantic Layer、Metrics Layer、Semantic Model、Metric View、Semantic View……

如果用更工程化一点的拆法，会清楚不少：

语义层（Semantic Layer）：一组能力的集合，用来统一业务语义

语义模型（Semantic Model）：语义层里的模型定义（实体/关系/维度/指标/规则）

语义视图（Semantic View）：语义模型在平台里的可执行/可发布形态（对象/资源/接口）

指标层（Metrics Layer）：语义层的一个子集，更聚焦指标的标准化与复用

落地时常见几种形态：

把 Semantic View 做成数据库内对象（schema-level object）

做成 catalog 管理的对象，用 YAML/DSL 描述

或者干脆做成 headless API（语义层服务化）

为什么在 AI + 数据平台里，Semantic View 更重要？ 3.1 让 AI 从“写 SQL”变成“调用业务真相接口” 纯 Text-to-SQL 的坑其实挺集中：

字段含义不确定：revenue、sales_amount、gmv 到底哪个是财务口径？

Join 路径不确定：订单 join 用户，还是账单 join 合同？

过滤条件容易漏：测试账号、退款、内部订单、跨期规则……

难审计：LLM 生成的 SQL 怎么保证口径一致、怎么追责？

Semantic View 的思路更像“先把规则固化，再让调用方组合”。常见链路大概是：

复杂逻辑提前沉淀成指标/维度/关系

查询时尽量少直接碰底层明细表

先检索语义模型（可用指标、维度、释义、同义词、权限）

再通过平台提供的语义查询接口执行

结果很直观：AI 的工作从“生成任意 SQL”变成“选对语义对象并组合查询”。模型能发挥的空间变小了，稳定性反而更高。

3.2 让组织从“对数”走向“对语义资产” 没有语义层时，很多团队的协作路径是这样的：

会上对齐一次口径

然后把口径塞进各类报表、脚本、Notebook

口径一变，开始到处改、到处对数

有了语义层/语义视图后，协作对象就更像“资产”：

可版本化的语义定义（Semantics as Code）

可认证、可审计的指标资产

从治理角度看，这类投入减少的是“决策债务”：口径越晚统一，未来返工和扯皮的成本越高。

3.3 让治理更像系统能力，而不是每个工具重复配置多 BI、多数据应用、多 Agent 的环境里，差异会很明显：

语义散落在各工具：权限、行列级策略、脱敏、审计要重复做

语义对象在平台内：治理策略跟着语义对象走，消费面天然继承

这在合规场景（审计、访问记录、可追溯性）里尤其关键。

Semantic View 的核心能力清单（你通常会期待它具备什么）下面按“能力清单”把一个成熟的 Semantic View（或语义层）常见要素梳理一下。

4.1 语义建模：指标、维度、实体关系维度（Dimensions）：切片、分组、过滤的业务属性

例：地区、渠道、客户等级、产品层级、财年、自然月

度量/指标（Measures / Metrics）：可聚合的业务结果

例：收入、活跃用户数、NRR、转化率、留存率

关系（Relationships）：实体之间如何连接

例：订单→用户、账单→合同、商品→类目

关键点：指标定义要和维度分组解耦。否则它很快就退化成“固定粒度 view”，下游还是会在不同场景里算出不一致的结果。

示例：用 YAML / DDL 定义“非累加指标”（Non-additive / Semi-additive）语义层最“值钱”的内容之一，就是非累加指标。原因很简单：这类指标在不同粒度下二次聚合很容易错。

常见例子：

distinct_customer_count：去重客户数（聚合后再 sum 基本就错了）

revenue_per_customer：人均收入 = SUM(revenue) / COUNT(DISTINCT customer_id)（比率在不同粒度下要重算）

conversion_rate：转化率 = converted_users / eligible_users（分子分母必须在同一粒度计算）

示例 A：Databricks Metric View（YAML）——“比率 + distinct” Databricks 的 metric view 用 YAML 把 measures 和 dimensions 分开定义，引擎在运行时生成正确的聚合计算（查询时用 MEASURE() 显式引用）。下面是一个示意（字段名按你的模型调整即可）：

metrics/revenue_metrics.yaml

version: 1 metric_view: name: mv_revenue description: "Revenue metrics with non-additive measures"

source: # 可以是表、视图或 SQL（文档中说明 source 可为 view/table/query） table: main.analytics.fact_orders

dimensions: - name: order_date expr: order_date type: date - name: region expr: region type: string

measures: - name: total_revenue expr: revenue_amount agg: sum description: "Sum of revenue"

- name: distinct_customers
  expr: customer_id
  agg: count_distinct
  description: "Distinct customers"

# 非累加：人均收入（比率）
- name: revenue_per_customer
  expr: total_revenue / distinct_customers
  agg: ratio
  description: "SUM(revenue) / COUNT(DISTINCT customer)"

一键获取完整项目代码

查询时（示意）：

SELECT region, MEASURE(revenue_per_customer)AS rev_per_cust FROM main.analytics.mv_revenue GROUPBY region; 这套写法的价值在于：下游换了 group by 粒度，仍然是在“当前粒度”重算比率，而不是对已经算好的比率再做聚合。

（Databricks 文档也强调了 metric view 会把 measure 定义与维度分组分离，用来处理 ratios、distinct counts 这类复杂度量。）

示例 B：dbt Semantic Layer / MetricFlow（YAML）——“可加 vs 非可加” dbt Semantic Layer（MetricFlow）里，一般先定义 semantic_model（entities、dimensions、measures），再定义 metrics。下面示意一个“订单事实表”的语义模型，并定义一个非累加比率指标：

models/semantic/order_semantic.yml

semantic_models:

name: orders_semantic model: ref('fct_orders') description: "Order fact semantic model"

entities:
- name: order type: primary expr: order_id
- name: customer type: foreign expr: customer_id
dimensions:
- name: order_date type: time type_params: time_granularity: day
- name: region type: categorical
measures:
- name: revenue agg: sum expr: revenue_amount
- name: customers agg: count_distinct expr: customer_id

metrics:

name: revenue_per_customer description: "SUM(revenue) / COUNT(DISTINCT customer)" type: ratio numerator: measure: revenue denominator: measure: customers 一键获取完整项目代码

两个点值得注意：

customers 用 count_distinct 定义成 measure，避免下游对已聚合结果再聚合

revenue_per_customer 用 type: ratio 明确它是比率指标，执行时按分子/分母在当前粒度计算

示例 C：Snowflake Semantic View（DDL）——“把语义作为 schema-level object” Snowflake 的 semantic view 是数据库里的对象，DDL 会声明 tables、relationships、dimensions/metrics 等。下面是极简示意（语法细节以官方文档为准）：

CREATE OR REPLACE SEMANTIC VIEW SALES_SEMANTIC_VIEW tables ( ORDERS primary key (ORDER_ID), CUSTOMERS primary key (CUSTOMER_ID) ) relationships ( ORDERS_TO_CUSTOMERS as ORDERS(CUSTOMER_ID) references CUSTOMERS(CUSTOMER_ID) ) dimensions ( ORDERS.ORDER_DATE as order_date, CUSTOMERS.REGION as region ) metrics ( -- 可加：收入 ORDERS.TOTAL_REVENUE as SUM(ORDERS.REVENUE_AMOUNT),

-- 非累加：去重客户数
ORDERS.DISTINCT_CUSTOMERS as COUNT(DISTINCT ORDERS.CUSTOMER_ID),

-- 非累加：人均收入（比率）
ORDERS.REVENUE_PER_CUSTOMER as
  (SUM(ORDERS.REVENUE_AMOUNT) / NULLIF(COUNT(DISTINCT ORDERS.CUSTOMER_ID), 0))
  WITH SYNONYMS = ('arpc', 'revenue per customer')

); 一键获取完整项目代码 sql

这种模式的优势主要体现在两点：

语义对象和数据库治理/权限/审计在同一个控制面

同义词（synonyms）这类元数据对 NLQ/Agent 的命中稳定性很有帮助

4.2 业务规则内建：过滤、口径、时间窗语义定义通常会携带业务规则，比如：

排除测试账号

只统计已完成订单

退款/冲正怎么处理

时间窗：滚动 7 天、自然月、财务季度

这些规则如果散落在报表和脚本里，口径漂移几乎是必然的。把规则放进语义对象本身，复用成本会低很多。

4.3 元数据与语义增强：让“人”和“AI”都能读懂更偏 AI-ready 的 Semantic View 往往会带这些信息：

指标/维度描述（description）

口径说明（business definition）

owner / steward

认证状态（certified / experimental）

同义词（synonyms）、缩写（acronyms）

展示格式（currency、percent、precision）

示例问法/示例查询（可选）

这些元数据会直接影响：LLM/Agent 能不能稳定选到正确对象。

4.4 治理能力：权限、审计、血缘、影响分析语义对象进了生产环境，治理能力往往决定它能走多远：

和 catalog 集成（统一资产目录）

行/列级权限、脱敏策略继承

访问审计（谁在何时用哪个指标）

血缘（指标来自哪些表/字段/模型）

影响分析（改一个指标会影响哪些报表/应用/Agent）

4.5 性能能力：物化、增量、缓存、路由如果语义层只做逻辑抽象，落地后很容易被吐槽“慢”。比较成熟的实现通常会提供：

常用聚合结果缓存

声明式物化（materialization）

增量更新（incremental refresh）

查询重写（query rewriting）与路由

价值在于：把性能优化从“每个报表单独调优”变成“平台级共享优化”。

4.6 多消费面：SQL / API / BI / Agent Semantic View 的消费面不止 BI：

SQL（分析师、Notebook）

JDBC/ODBC（第三方工具）

REST/GraphQL（数据应用、指标服务）

NLQ（自然语言查询）

Agent 工具调用（function calling / tool use）

架构：Semantic View 在 AI + 数据平台中的位置 5.1 逻辑分层一个常见、也比较好沟通的参考分层（从下到上）：

Storage / Lakehouse / Warehouse：原始表、明细事实表、维表

Transform / Modeling：数据建模层（星型/雪花）、数据质量、dbt 等

Semantic View（语义视图层）：指标/维度/关系/规则/元数据/治理

Serving / Consumption：BI、Notebook、数据应用 API、NLQ、Agent

语义层一般在建模之上，同时尽量靠近平台的治理与目录体系。

5.2 三种主流落地模式（实现路径）模式 A：平台内原生对象（Platform-native / In-Database）语义对象作为数据库/平台的一级对象

优点：治理继承强、性能优化空间大、统一入口

挑战：跨平台迁移成本更高，能力边界受平台约束

模式 B：目录/元数据驱动（Catalog-native）语义定义存储在 catalog（或类似元数据服务）

查询时由引擎做 query rewrite / 生成执行计划

优点：语义与治理紧耦合，天然支持多消费面

挑战：对 catalog 能力和执行引擎的协同要求更高

模式 C：Headless 语义服务（API-first）语义层是独立服务，对外暴露统一 API 给 BI/应用

优点：工具无关、多平台复用

挑战：治理策略与底层平台的继承需要额外工程；性能优化复杂度也更高

很多团队会混着用：核心指标用平台原生承载，长尾或实验指标用服务化方式接住。

一个工程化的语义模型：最小完备要素（MVP）从 0 开始做语义层，建议先把“最小闭环”跑通。别一上来想覆盖全域，最后容易变成“做了很多定义，但谁也不敢用”。

6.1 实体与关系（Entities & Relationships）核心事实实体（Fact）：订单、账单、事件日志、订阅等

维度实体（Dimension）：用户、产品、组织、渠道、时间

关系：外键/业务键/多对多桥表

关系声明的价值很直接：查询生成器/优化器/Agent 不需要靠猜来拼 join。

6.2 指标（Metrics）一个能长期维护的指标定义，通常会包含：

名称（canonical name）

业务释义（business definition）

计算表达式（aggregation + expression）

粒度（grain）：按订单、按用户、按合同等

可切片维度范围（可选）：哪些维度组合在治理/性能上更合适

内建过滤（filters）：口径规则

时间语义（time）：归属日期字段、窗口

格式化（format）：货币、百分比、小数位

6.3 维度（Dimensions）名称与描述

类型：枚举/层级/时间

层级（Hierarchy）：类目→子类→SKU、国家→省→市

同义词/别名：服务自然语言、也服务跨团队命名

6.4 语义元数据（Semantic Metadata） owner / domain

certification（生产可用/实验/弃用）

lineage