构建 Medallion 架构——生成式 AI 赋能的未来 Medallion 架构

107 阅读33分钟

作为本书的收官,我们将探讨不断演进的 Medallion 架构如何日益与生成式人工智能(GenAI)交织在一起。¹ 传统上,Medallion 架构在 Bronze、Silver 和 Gold 各层主要面向结构化数据;而如今,为增强 AI 应用的可用性,它也必须容纳非结构化数据。本章聚焦两个关键问题:① 是否有必要(且可行)用一套统一的 Medallion 架构同时管理结构化、半结构化与非结构化数据?② 大语言模型(LLM)又该如何融入 Medallion 架构现有流程?

开门见山:我坚信以整体视角统一管理结构化与非结构化数据价值巨大,它能为更全面、更有效的数据与 AI 洞察铺路。同时,LLM 正在重塑诸如清洗与集成等数据管理任务,迫使我们重新想象传统范式。它们也将改变工程师与数据科学家与数据交互的方式,让数据更易获取、更可行动。

为深入理解这种变革,我们先概览在现代 AI 语境下非结构化数据带来的挑战与机遇,并强调检索增强生成(RAG)在有效利用此类数据中的角色。随后,我们将逐层阐述与 AI 相关的 Medallion 架构实践细节,涵盖从采集与清洗到高级精炼与索引,以支撑 AI 搜索与应用。

本章还将讨论在 Medallion 架构内集成 LLM 的协同潜力,通过实际场景展示这些模型如何增强数据转换、清洗与丰富流程。我们也会展望数据管理技术的未来走向,预期 GenAI 与其他先进工具的融合将重塑企业处理、加工与利用数据的方式。

读完本章,你不仅将更深入地理解 Medallion 架构,还将掌握可操作的方法,把该框架应用或升级到你的 AI 与数据管理战略中。作为压轴,本章也会综合前文要点,帮助你进行最终梳理与反思。

非结构化数据处理

当下,Medallion 架构依旧主要面向结构化数据——这类数据借助诸如 Delta Lake 或 Iceberg 等开放表格式被良好组织、易于检索。这种结构化取向便于处理与分析,但不足以应对现代系统广泛需要的非结构化数据管理复杂性。

LLM 主要消费的是半结构化与非结构化内容:从 JSON、XML,到 PDF 文档、电子邮件、社交媒体内容,乃至语音与图像。此类数据信息密度高、形式多样,必须依托更健壮与灵活的体系才能高效管理。为此,我们先从 RAG 模式入手——它是 LLM 有效利用非结构化数据的关键框架。随后再讨论如何管理非结构化数据并与 RAG 对齐,最后给出结论。

检索增强生成(RAG)

RAG 是提升现代 AI 与 LLM 输出准确性与相关性的关键框架。图 13-1 展示了其基本流程:RAG 通过引入外部知识来增强模型输出。与仅依赖基础模型“内置知识”不同,RAG 允许你为模型提供额外上下文,从而生成更精确、更贴合的问题解答。

实现 RAG 的过程通常从围绕特定用例收集数据并将其切分为更小的片段(chunks)开始。随后,使用嵌入模型将每个片段转换为向量表示,用以捕捉语义相似性(向量距离越短,语义越近)。这些向量与对应内容被存入向量数据库。

image.png

图 13-1. RAG 模式


RAG 不仅可处理非结构化数据,也可处理数据表等结构化数据;其输入源可覆盖 ERP、CRM 等各类企业数据源。

当向量数据库就绪后,RAG 会在推理时对初始提示进行“上下文增强”。具体而言:当用户或应用提交一个提示(图 13-1 的步骤 1),系统先将该提示(步骤 2)用与入库相同的嵌入模型编码成向量;再用该向量到数据库检索(步骤 3)最相近的若干向量,拿到最相关的信息;最后将这些内容与原始提示合并(步骤 4),交给 LLM 生成更具上下文、也更准确的响应。

为让 RAG 发挥最大效果,必须保证数据被良好组织。典型步骤包括:

  1. 采集原始文档
    从结构化与非结构化源抽取数据,并按来源、日期或业务流程分类。
  2. 生成文档元数据
    生成/抽取创建时间、标题、页码、URL 等关键元数据。
  3. 组织与标准化文档
    用统一格式重排文档,标准化过程提升可复用性。
  4. 文档切片(chunking)
    将文档拆成更易于 LLM 处理的小段。
  5. 为切片生成向量
    使用嵌入模型将每个切片转为数值向量。
  6. 在向量数据库中建立索引
    将向量及对应文本载入向量库,供检索时使用。

为在 AI 系统中有效管理与利用非结构化数据,需要与分层架构对齐。我们已经介绍了 Medallion 的 Bronze、Silver、Gold 三层,它们对数据逐级精炼。下面结合 RAG 看看各层如何协同;随后再讨论更复杂的场景。

Bronze 层

在非结构化数据栈中,Bronze 是起点,重点在于采集与落地。其职责与结构化场景一致:以“原貌”捕捉与组织数据。在非结构化语境下,关注点是采集、抽取并优化原始文件以便存储与后续处理。其来源包括日志、社交媒体、客户反馈、邮件、科研文献等。

抽取非结构化数据的常见方式有:上传表单、网页爬虫、API 集成、文件解析器。依据数据类型与精度需求,你可以自研抽取器,或使用高准确率的现成方案(如 LlamaParse、Tensorlake)。这些解析器同样适用于 Silver 与 Gold 层,可通过规则与模式定制抽取逻辑——下一节会继续展开。

抽取完成后,通常将原始文件(如 PDF、DOCX、TIFF)按原格式落地到原始存储(如 Azure Data Lake Storage)。在落地过程中,往往同步生成附加元数据,用于记录数据来源、格式、上传者、创建时间等。这些元数据通常存放在数据目录中,或与非结构化数据并置,便于追溯来源与沿袭。

为了高效生成元数据,可以使用小型语言模型(SLM) 。相比超大模型,SLM 更轻量、更面向特定任务,擅长分类、打标签、敏感与 PII 识别、实体抽取与摘要等元数据生成工作。Bronze 产生的元数据对后续各层至关重要;例如,Bronze 中的敏感/PII 标签可在 Silver 与 Gold 层用于访问控制策略。

TIP
SLM 同样适合为结构化数据生成元数据。统一管理非结构化与结构化数据被视为最佳实践;要想规模化治理元数据,务必投资建设可靠的元存储(metastore)或数据织体(data fabric)能力。

Bronze 的另一目标是对数据进行初步归档与整理,为后续处理奠定秩序。这与结构化数据在 Bronze 层“保真存档、可被取用”的理念一致。实践中,常按业务流程或数据来源(如 Teams 频道、SharePoint 文件夹)建立容器/目录结构,并采用按日期等维度的分区策略实现时间版本化,使非结构化数据也具备像结构化 Bronze 那样的“原始档案”属性。

在数据湖的目录结构中,务必维护与模式定义、解析器与抽取脚本的强关联。落地做法通常是:以数据源、项目或业务流程为顶层组织;其下设“raw/中间/metadata”等子目录;在 metadata 中保留半结构化文档的模式定义、解析脚本与代码仓引用。这样就能把每份数据追溯到其来源与加工说明,确保后续处理与分析具备上下文。

小结:在非结构化场景下,Bronze 层的任务是以最真实、最原始的形态捕捉数据,并为后续精炼提供“可追溯的快照”。在此过程中,保持来源清晰至关重要。为高效识别与整理非结构化数据,可利用 LLM/SLM 生成元数据,让“无结构的数据”叠上一层“有结构的说明”,而这层说明正是后续各层处理的关键输入。

银层(Silver Layer)

当我们迈入 Silver 层时,重点转向对数据进行精炼与稳定化,使其能够服务于以 AI 为驱动的用例。此阶段的一个关键方面是确保数据的可复用性。这不仅有利于 RAG 应用,也为后续的微调模型(将在“训练与微调 LLM”中讨论)打下基础。

此时需要将先前的原始数据按语义上有意义的上下文切分为逻辑单元,并进行细致的重构、标注与清洗,以确保一致性与可用性。具体技术包括噪声检测与重复项识别,用于滤除无关或错误信息,避免影响 AI 输出的准确性。需要注意的是,LLM 在这一阶段同样大有可为:它们可以辅助识别并纠正数据中的错误,提升信息的准确与可靠。

关于非结构化数据的质量,它高度主观,且可能因采集过程而带有偏差。因此,组织有必要建立自有的数据质量评估框架;可以考虑以 LLM 充当“评审者”(judge)来监管该框架。

在完成质量检查、清洗与分区后,非结构化数据通常会被转为结构化、机器可读的格式。采用标记语言(尤其是 Markdown)被视为最佳实践,因其轻量且可读。使用 Markdown 能简化文档,使其更便于程序化访问,也更易被 AI 系统处理,从而提升与各类分析工具/平台的兼容性。Markdown 的简洁性有助于模型更有效地解析与理解内容,这对检索、分类与摘要等任务至关重要。

诸如 MarkItDownPyMuPDF 等框架在此阶段尤为关键:它们可以标准化输出,并为更高级的分析工具做好准备。经清洗且格式清晰的数据即可进入更深入的分析与洞察提取流程。简洁的 Markdown 还能降低复杂格式带来的潜在错误,保证数据的纯净与一致。

提示(TIP)
Francesco Fava 发布了一套端到端示例,展示如何用 Markdown 做数据处理并供 LLM 消费。

在这一数据转换阶段,通常还会生成额外元数据,帮助 AI 系统更好地理解数据上下文。Silver 层的关键活动包括:

  • 对长文档进行精炼摘要
  • 拆解复杂文档为更小、更易管理的单元;必要时抽取图像与表格并单独存储并建立引用(注意:这不是“分块(chunking)”策略的一部分;真正的分块通常留到后续面向特定 AI 应用的精炼阶段);
  • 借助 LLM 将多种语言统一翻译为组织标准语言;
  • 为数据创建分类器与敏感度标签。例如,可基于内容类型打“机密(Confidential)”的分类,另根据访问控制或暴露风险赋予“低风险(Low Risk)”等敏感度;
  • 文本分类与归类
  • 实体识别与抽取:例如用 LLM 识别合同中的当事人名称、日期与义务,并整理入结构化数据库以便快速检索;
  • 主题建模与趋势分析
  • 针对含敏感信息的文档,可将标记文件拆分为多个部分,以实现更细粒度的访问控制;
  • 将元数据以结构化方式存放于目录/元数据存储,或与非结构化数据并置在数据湖中。

为支持上述活动,选择合适的数据处理引擎至关重要。这些引擎因是否面向结构化/非结构化数据、单机/分布式运行等因素而不同。此外,Silver 层数据还能被上游应用访问;例如,知识图谱工具可以直接利用 Silver 层中的实体与其他元数据。

读到这里,你或许会疑惑:为何在 Silver 层要如此强调标准化与稳定化非结构化数据?原因在于:将语言模型工程化(operationalize)与训练模型都依赖于稳定、可预测的数据,而 Silver 层正是为此而设。它让你可以快速上线新的 RAG 应用,并为任务定制型 LLM 的微调做好准备。因此,具体的“分块”策略需要延后到数据已经被适当处理之后,再面向 Gold 层的高级 AI 应用进一步利用。

金层(Gold Layer)

进入 Gold 层,数据精炼将进一步面向具体应用进行定制,确保数据的精度与特异性与目标用例精准对齐。

对于利用非结构化数据开展 RAG 等应用的团队,流程通常从筛选与用例最相关的文档/对象开始(基于关键词、主题、实体等标准)。这与结构化数据从“通用 → 面向具体分析用例精炼”的过程是平行的。

在完成选取后,通常会加入一轮面向用例的再预处理,如数据增强,以让数据更具代表性、准确性与多样性。该步骤对于匹配目标应用(如训练特定任务的 LLM 或进行嵌入生成)至关重要;同样,语言模型可以参与生成补充样本与上下文,或打磨既有样本以增强数据集质量。

接下来是关键步骤:数据分块(chunking)与嵌入(embedding) 。嵌入模型将文本转为向量串以表征语义,这把我们带回先前的 RAG 话题:将数据转为数值表示并存入向量数据库。由于每个应用的需求各不相同(所需数据、分块策略、嵌入模型选择等),难以一概而论。尽管“分块”与“嵌入”是不同任务,但它们相互依赖

  • 分块策略
    在送入嵌入模型前,将长文档拆分为较小的“块”。由于嵌入模型存在输入长度限制,合理分块至关重要。比如问答场景常按“段落”级分块,以保证每块包含足够上下文来回答潜在问题。此外,模型存在 token 上限,超过上限会导致性能下降或无法处理,因此分块对高效、准确处理尤为关键。
  • 嵌入模型
    嵌入模型决定了语义关系被捕捉与保留的质量。不同模型在上下文建模、语种覆盖、行业知识编码等方面能力各异。低维嵌入适合注重效率与资源开销的实时场景(如聊天机器人);高维嵌入适合追求细粒度表示的深度分析(如学术研究)。因此必须选择与用例需求匹配的模型。

为让 LLM 能高效检索语义相关的数据,必须将数据向量化、存储并建立索引,以支持快速与有效的搜索能力。此处选择合适的存储方案(如向量数据库或数据湖)至关重要,以便管理非结构化数据的规模与多样性。在 Gold 层,我们的目标是把非结构化数据打磨为**高度结构化且针对特定应用精心策划(curated)**的形态,从而真正“由粗到精、用其所用”。

在实现层面,常用 PineconeAzure AI Search 等引擎,以保证数据既可访问又以利于决策与 AI 应用。就 Medallion 架构而言,这意味着通过一个**面向 AI 应用优化的服务层(serving layer)**对外提供数据。

展望未来,带有 Spark 等引擎的 Medallion 架构将更好地支持对向量嵌入列的操作(如精确/近似最近邻与区间检索)。目前这类引擎处理大规模向量数据仍有困难,经常需要借助开源数据库 LanceDB 或分布式向量查询引擎 Quokka 来完成大数据向量检索。但情况有望改善:将来或许可以直接在 Spark 内对向量数据执行复杂操作,而无需把数据外迁至专用向量库——这将简化流程并在统一架构内完成数据处理。

稳健的数据治理贯穿 Medallion 的各层:它既用于合规,也用于安全。需要建立严格的数据访问、使用与隐私策略,保护敏感信息并推动数据驱动文化。同时,要管理与目录(catalog)的关系,并为数据与文档补充语义上下文。这项“额外的自律”能让数据组织良好、易发现、易理解,从而支撑高效的数据管理。这种战略性做法既保障数据,又增强在各部门/业务单元部署 AI 应用的信心。

LLM 与 API 管理(LLMS AND API MANAGEMENT)
在开发 LLM 应用时,请注意其与 API 管理存在高度重合。要有效管理这一点,需要在 Medallion 架构中加入一个连接层(connectivity layer) :将 API、数据产品与事件等多种数据形态统一到一个一致的框架中,这对智能应用(包括 LLM)的多样化数据消费至关重要。
设计稳健的应用集成解决方案本就复杂,往往需要在性能、可维护性、灵活性、成本与韧性等维度权衡取舍。这要求你对待解决的业务问题有深入理解,因此务必与应用集成工程师紧密协作,确保所选方案与组织目标保持一致。

完成这段非结构化数据处理旅程后,我们可以有把握地说:Medallion 架构的分层标签同样适用于非结构化数据管理。利用其分层思想,你可以在处理非结构化数据时实现关注点分离;同时用 LLM 生成元数据可增强对结构化与非结构化数据的一体化管理。因此,采用一套统一的 Medallion 架构来处理这两类数据是有利的,它能让不同学科更好地协同,带来更优结果。

在明确了管理非结构化数据的这些考量之后,下面我们通过一些实践示例来说明 AI(尤其是 LLM)如何与 Medallion 架构结合。

将 LLM 与勋章架构相结合

在第 6 章中,我们探讨了 AI——尤其是大语言模型(LLM)——如何通过数据丰富来增强数据集成。这类模型擅长自然语言处理,使机器能够理解人类语言并生成新内容。它们能够高效处理结构化与半结构化数据,提取洞察、重组数据并创建新内容,这对数据集成任务至关重要。

需要重点思考:如何把 LLM 融入既有的勋章(Medallion)架构流程?反过来,勋章架构又如何增强 LLM 的工作流?两者结合能在以 AI 为驱动的环境中,为数据处理、可扩展性与应用能力打开新的可能性。图 13-2 展示了三种示例场景,说明勋章架构如何与 LLM 结合,以优化数据处理与应用集成。

image.png

图 13-2. 勋章架构与 LLM 集成的三种场景,用于在多样化的 AI 驱动环境中优化数据处理并增强应用集成

下面对图中三种场景做扩展说明:

1) 通过 LLM 增强数据转换、清洗与丰富

LLM 在处理传统方法常常吃力的复杂半结构化与非结构化数据集方面表现突出。正如图 13-2 的场景 1 所示,LLM 与 SLM(小模型)能够解析复杂数据格式——例如从日志、邮件或报告这类“文本+数值”混合的内容中提取关键信息。设想一个组织需要处理来自不同来源、结构各异的大量 XML 文件;传统集成方法依赖预定义模式,往往难以胜任。此时,语言模型无需事先了解每个 XML 的结构,便可动态理解其布局与内容。例如,当组织需要从成千上万份 XML 中提取交易数据或客户信息时,LLM 都能定位并抽取出这些元素,无论它们在文件的何处出现。

LLM 的另一大优势体现在数据丰富、预处理或特征工程。例如 Marvin 侧重情感分析、数据结构化与多标签分类。这类基于 LLM 的框架能通过填补空缺、扩展数据点、修正常见错误(如拼写或不一致)来改进数据集。

除通用 LLM 外,像 Nixtla 的 TimeGPT-1 这样的基础模型在时间序列领域展现了强大的复杂数据处理能力,可用于预测趋势与模式,这对依赖预测的行业非常有价值。比如一家航司可用 TimeGPT-1 分析历史订座与退票数据,预测未来客流。该模型不仅能预测趋势,还能识别季节性变化与节假日/天气等潜在扰动。相比需要大量组织特定数据做前期训练的传统方法,这类基础模型基于广泛数据集预训练,可即插即用地产生洞察,从而更容易融入既有的数据架构,便于落地 AI 能力以进行数据丰富与预处理。

2) 利用大数据进行大规模文档处理

如图 13-2 的场景 2 所示,勋章架构提供的强大大数据处理能力,为将数据/文档拆分为有意义的**块(chunk)**提供了可靠路径。随后可为这些块添加元数据、标签或其他(结构化)数据。在同一架构中同时存放结构化与非结构化数据,可实现更复杂的丰富与组合。增强后,再将其转换为高维向量并存入专用的向量检索数据库(如 Azure AI Search)。这种将“大数据处理”用于分块与嵌入的方案,能够突破传统嵌入技术的限制,缓解可扩展性瓶颈以及在处理多样化数据类型时的低效问题。

3) 直接从勋章各层为 LLM 提供数据服务

如图 13-2 的场景 3 所示,直接从勋章各层为 LLM 供数,能显著提升 AI 应用的实现效果。以智能客服为例:在把用户问题发送给 LLM 之前,应用可先从勋章架构中的某一层拉取结构化数据(如客户详情),再改写/扩展提示词,以便 LLM 更高效作答。通过串联并组合这类数据,LLM 生成的回答不仅更准确,也更贴合用户的具体语境。

为简化叙述,这里未展开诸如 API 网关等复杂的应用集成话题。在真实场景中,实现这些集成通常会与 API 管理策略有所重叠,我们前文亦已触及。

将勋章架构与 LLM 及应用集成模式相结合,组织可以充分释放数据价值,通过自动化提升运营效率,并提供更个性化、响应更及时的 AI 服务。这种做法不仅最大化了既有数据的效用,也为能够实时感知并自适应用户需求的复杂应用铺平道路。

展望未来,AI 将显著重塑勋章架构的设计,催生更先进的场景——其中一个标志性趋势是**自治代理(autonomous agents)**角色的提升,它们将强化架构对复杂数据结构进行动态交互与处理的能力。

智能体的角色

当前,勋章(Medallion)架构的重心仍在处理表格型数据,但随着生成式 AI(GenAI)的进步,针对落地层及其后续各层中的文档等非结构化数据的管理兴趣日益增长。未来,这种做法可能会成为(例如)管理 Silver 层的最佳实践,因为该层旨在保留数据的原始语境。如图 13-3 所示,AI 驱动的搜索工具与 LLM 将与这些向量数据库进行交互。

想象一下,勋章架构如何在更复杂、由 AI 驱动的应用中重塑未来:某航空公司希望借助 CrewAI 或 LangChain 等框架的智能体来提升客服体验。在这一场景中,多个智能体协同工作,基于勋章架构采用 SQL 或 RAG 模式。每个智能体聚焦于一个特定数据集,例如旅客行程、常旅客画像、航班时刻表或购买行为。它们使用定制化提示词检索相关数据——这些数据很可能是已处理好的结构化与非结构化信息的混合体。

这些智能体并不局限于静态数据;它们还会引入来自空管、打车服务与道路交通的实时更新。这种模式的融合帮助 AI 根据当前情境给出务实建议。比如,当航班延误时,一个智能体可建议补偿方案,另一个智能体则为旅客重新安排去酒店的行程,同时第三个智能体把这些信息整合成清晰、友好的通知发送给旅客。这种协作式方法使航空公司能够提供一流且响应迅速的服务。分层式的处理既具同理心又切实可行,极大提升旅客体验。在该场景中,勋章架构充当关键的数据底座,支撑无缝且个性化的交互。

image.png

图 13-3. 向量数据库与 LLM 在勋章架构中的角色

尽管外界存在一些质疑,AI 智能体正迅速普及。根据 LangChain 的《AI Agents 现状》调研(覆盖 1,300 名受访者),受访公司中已有 51% 在生产环境部署了智能体,78% 计划近期将智能体投入生产。因此,上述场景并非遥不可及,而是正在成形的现实。

总之,将勋章架构与 LLM 及应用集成模式相结合,可以为 AI 驱动的环境解锁新的可能性。这种方法既最大化了现有数据的效用,又为能够实时与用户需求无缝交互并自适应的高级智能应用铺平道路。接下来,我们将探讨如何利用勋章架构来训练与微调 LLM。

训练与微调 LLM

微调(fine-tuning)是用较小、任务特定的数据集对预训练模型进行再训练,以提升其在特定应用上的表现。通过微调,通用模型被塑造成专用模型,从而更贴近人类期望并满足具体任务需求。

LLM 的微调属于监督学习过程。它使用带标签的样本数据集(训练时提供的提示与答案对)来更新模型权重。通常,需要数千到数万条样本,并能反映模型将要面临的真实场景。比如,若要为客户自助服务微调模型,训练集就应包含常见客户问题及其理想回复。

以 OpenAI 的模型为例,微调流程通常为:先从训练集挑选合适的提示,把这些提示输入 LLM 以生成补全;按 JSON 等格式组织训练样本,每条样本为一个 <prompt, completion> 对;然后选择基座模型、训练集与验证集,让模型在训练集上微调;最后在验证集上评估效果,评估方式可对比强力模型的输出或人工答案,以确保质量。

从勋章架构的数据管理角度,应遵循 Bronze、Silver、Gold 三层的最佳实践:Bronze 侧重采集原始文档并生成元数据;Silver 负责组织、标准化与准备文档;Gold 则用于装配微调所需的数据集。遵循这种分工有助于关注点分离并提升数据复用效率。

微调是将预训练模型适配到特定任务或领域的强大方法,可显著提升模型的有效性与相关性。借助勋章架构,你可以定制 LLM,使其产出更准确、更具上下文相关性的回答,贴合业务的独特挑战。随着我们继续探索 AI 的影响,勋章架构的未来与其在数据管理中的作用同样充满前景。最后,在本书收尾之前,我们将简要展望一些相关趋势。

勋章架构的未来

截至 2025 年,生成式 AI(GenAI)正以更可及、更高效的方式重塑数据管理。它简化数据工程、强化治理,并让业务影响的洞察更清晰。凭借对复杂数据结构与元数据的处理能力,这类技术既加速流程,又扩大了参与面。以下是包括 AI 在内的多项进步如何增强勋章(Medallion)架构:

用 AI 进行数据增强
到 2025 年,AI 正在改变数据清洗与增强的方式。比如,它可以根据公司名称识别所属行业、翻译语言、分类客服问题、定位最近门店、判断紧急程度等。如第 6 章所示,这项技术正处于重塑数据丰富化方式的临界点,使过程更快、更精准、也更易用。

生成式商业智能(GenBI)的崛起
GenAI 将通过简化仪表板与报表的创建来变革商业智能。用户可用自然语言提问并得到准确的、以数据为依据的答案;同时可自动生成可视化与报表,无需手工编码或设计。展望未来,这项技术甚至可能让传统报表走向式微——你或许只需从一个保存的提示生成报表。
但要注意,GenBI 要高效运行离不开大量元数据:业务术语与定义、常用数据集、常用报表、数据集之间的关系等。它们是 AI 理解业务语境并生成准确报表的关键。

基于 AI 的数据质量保障
AI 以智能数据质量方案重塑数据管理。借助先进的机器学习算法,AI 能快速从海量数据中发现异常与不一致,远优于缓慢且易出错的人工方法。比如,Microsoft Purview 利用机器学习与 GenAI,基于已有元数据自动提出新的数据质量规则。

用 AI 精简数据集成
传统数据集成往往需要大量人工映射与转换。AI 能通过理解数据模式与关系自动化这些工作,令集成更准确、更高效。像 Prophecy 之类的工具用 AI 帮助用户更好地构建与管理数据管道,提升 AI 应用与分析能力。数据集成的未来很可能依赖语义信息来自动识别并整合数据,基于业务关系进行交叉关联;或者在集成过程中引入 GenAI,自动生成转换逻辑。

AI 驱动的数据治理
AI 也将在数据治理中扮演关键角色,通过自动化流程满足合规要求并保护数据资产。例如,可用机器学习来执行治理策略并实时监控合规风险,降低违规概率;或用 GenAI 自动标注与分类数据。AI 还能强化元数据管理,提升数据可发现性与可用性。

用 AI 提升开发者生产力
GenAI 工具(如 GitHub Copilot、Microsoft Fabric 中的 Copilot、Databricks Assistant)能为开发者与数据专业人士提升生产力,提供代码建议与答案,加速开发并改善代码质量。与这些助手协作有助于确保输出的准确性与相关性。

与数据对话
未来,人们将更常以对话方式与数据交互。GenAI 能理解特定数据集,加快数据检索与决策,从而带来竞争优势。此创新类似于 GenBI,但无需依赖传统仪表板即可无缝运行。

构建 AI 技能
在 Microsoft Fabric 等平台上创建对话式问答系统,让用户只需提问即可获得准确、以数据为依据的答案。通过用特定指令与示例对 AI 进行训练,它会更好地理解组织语境,从而更有效且更具普适性。更多信息可参见“基于 AdventureWorks 数据集的 AI 技能示例(预览)”。

向量搜索
这是一项可在任意数据集中按语义相似性查找条目的动态能力。其底层技术基于向量数据库,后者以适合相似度检索的格式存储数据,尤其适合图像、文本或电商商品等复杂数据。通过将数据转换为高维空间中的向量,向量搜索支持检索与查询相似的条目,广泛用于商品推荐、图像检索、文档搜索等场景,显著提升用户体验并释放数据价值。³

GraphRAG
这是一种将图数据库RAG 模式结合以增强检索与生成的做法。借助图数据库中实体间的关系,GraphRAG 能为查询提供更具语境相关性的响应。该方法特别适用于数据高度互联的场景,如新闻源、科研论文或知识库。更多信息见微软研究论文《GraphRAG: Unlocking LLM Discovery on Narrative Private Data》。

回到开篇两个问题:把结构化、半结构化与非结构化数据统一管理有价值吗?将 LLM 融入勋章架构有价值吗?答案都是肯定的
把各类数据统一管理能带来显著收益,帮助产出更全面、更有效的洞察。同时,LLM 正在颠覆诸如数据清洗与集成等任务,促使我们重思传统方法。尽管这些技术仍在普及中,但它们对组织流程的潜在重塑既深远又令人振奋。让我们回顾要点,为本次勋章架构之旅画上句号。

结论

显而易见,设计与构建这些架构是一个充满关键抉择的复杂过程。我们在第一部分深入解析了勋章架构的各层,也认识到传统的三层结构并非放之四海而皆准,必须根据组织与数据的特性定制。一个务实路径是:让子层与 Bronze、Silver、Gold 对齐,确保每个实施层都契合其对应的勋章分层定位;同时为团队明确每一层应做什么,并制定全组织的勋章分层标准以保持一致性。

第二部分,我们把理论落地为实践,使用 Microsoft Fabric 与 Azure Databricks 实现勋章架构。我们体会到,要构建一个可查询的 Bronze 层并不容易——需要稳健的摄取流程,并针对源系统的独特性进行定制。通过深入部署与管理数据管道、笔记本与数据产品,我们学会了应对这种多维挑战的具体方法。

Silver 层,我们看到数据转换于整体管道中的关键性。我们强调了数据清洗、反规范化、数据丰富化与历史化等活动的顺序要正确,才能顺畅运行。借助简化与元数据驱动的方法,我们让数据转换事半功倍。

Gold 层强调构建易访问、易理解、可行动的数据产品。我们学习了如何打造能为业务创造价值的数据产品,并确保其有良好的文档与维护。我们也认识到,构建数据产品是一项协作工程,背后有一长串需要把控的指导性活动。

第三部分探讨了各类企业面临的障碍与经验教训。每家组织都有独特的挑战与机遇,成功的关键在于用量身定制的架构来应对。我们看到,当勋章架构与强治理深厚的数据工程文化相结合时,最能促进业务创新、加强决策与简化运营。

第四部分关注联邦式与分布式环境中并行运作的多套勋章架构。我们识别到一个风险:数据产品可能过度碎片化地散落于多个域。解决之道在于建立强标准中央权威来统筹数据产品的创建,制定建模规范并协调变更与交付。尽管这很具挑战,因此需要强安全与治理框架加持;数据目录等工具可以帮助组织更有效地管理数据产品与业务概念。最终,我们得出结论:将 LLM 引入并在一个统一框架(如勋章架构)下整体管理结构化与非结构化数据是有价值的

总之,勋章架构为数据管理与处理提供了灵活的框架,并强调应把各层视为逻辑结构而非物理结构。三层是否都要存在,并无定法,取决于组织目标与数据复杂度。更重要的是:有效的数据建模是成功的基石;如同传统数仓一样,糟糕的建模会损害数据的完整性与可用性。因此,组织必须优先培养团队的数据建模能力,以确保勋章架构——或任何数据架构——都能高效达成预期目标。

管理数据旅程与拥有强健的数据架构同样重要。要推动转型,需要重视沟通、辅导、培训、稳健的治理与组织内协同。这些活动至关重要,切莫低估。你需要能统筹与对齐不同工作的胜任领导者:既要有清晰愿景、能组织设计与头脑风暴,也要务实且鼓舞人心,让大家愿意跟随。你必须制定深思熟虑的转型计划,包含清晰的路线图以交付可见成果。挑战在于要并行推进多条主线:技术架构建设与成熟、数据治理、能力与培训、文化认知与业务对齐——这些领域必须同步演进并随时间均衡成熟。虽复杂,但这是成功数据转型的必要之道。

展望未来,GenAI 融入数据管理带来了令人兴奋的新可能。尽管 GenAI 仍在演进,但其改变数据管理的潜力巨大、值得持续关注;它很可能对数据架构的演化产生重大影响