\n\n本文探讨了在AI智能体时代,如何通过模型上下文协议(MCP)和合成数据解决软件开发生命周期中的敏感数据泄露与合规难题,强调将治理重塑为自动化、实时的基础设施。
译自:How MCP and synthetic data are reshaping compliance in the agentic era
作者:Brian Muskoff
软件开发一直以来都有一种在不易察觉的地方悄悄分发敏感数据的特性,许多组织已经无法追踪这些数据的去向。
然而,智能体 AI(Agentic AI)的兴起将这一问题推向了全新的领域。AI 智能体不仅在加速软件开发生命周期(SDLC);它们还在演进这一流程,在每个阶段以团队可能无法完全看清的方式接触数据。令人担忧的是,它会在没有明确请求的情况下与潜在的敏感数据进行交互。这种交互发生的速度和规模可能会超出许多组织的治理框架。
令人鼓舞的是,这是一个可以解决的问题。如果团队能够建立起专为机器速度和自主系统(而非仅仅是人类工作流)量身定制的强大数据治理实践,就能更自信地实现合规并更快地进行创新。反过来,这将有助于提高组织构建值得信赖的 AI 的能力。
多年来,测试数据管理(Test Data Management)的最佳实践已经得到了相对充分的理解。在整个产品开发周期中管理测试数据可以安全且高效地进行。
不幸的是,敏感数据仍经常出现在整个 SDLC 中,包括开发沙箱、CI/CD 管道、模型训练数据集、特征存储、回归测试环境以及 AI 智能体内存存储。它可能存在于整个开发生命周期的每一个环境和每一个模型中,从而带来重大的组织风险。
这至关重要,因为代码和测试数据的数量正在急剧增长。随着智能体 AI 的兴起,编写代码的人类变少了,更多的人在指示 AI 智能体去完成编写。
这种转变更加凸显了对测试数据的需求,因为生成的代码越多,需要测试的代码也就越多。
智能体 AI 越来越有能力自主驱动这一过程。因此,许多组织报告称,AI 的采用速度已经超越了其数据隐私策略的跟进速度。
非生产环境与已知风险
组织在思考数据安全时存在一个长期的盲区。尽管生产环境和非生产环境都包含大量敏感数据,但它们的待遇却截然不同。生产环境配备了 SOC 监控、严格的访问控制和事件响应协议。
另一方面,非生产环境包括开发、测试、分析和 AI。这些环境在设计之初根本无法抵御与生产数据同等水平的威胁,这正是允许真实客户数据、财务记录或健康信息流入其中存在高风险的原因。
便利性经济学使这个问题更加复杂,即人们倾向于多做更容易的事情。DevOps 文化鼓励了环境的激增,例如创建多个类似生产环境的克隆、定期刷新数据以及加速交付管道。更多环境意味着更多的数据副本。
当走捷径感觉风险较低时,它们就会成为默认选择。相反,在妥善治理的情况下,使用虚拟化和数据脱敏等技术可以使访问同样顺畅,团队自然会做出正确的选择。答案不是限制数据,而是让合规成为阻力最小的路径。
“答案不是限制数据,而是让合规成为阻力最小的路径。”
数据治理框架是为人类工作流构建的,允许人工审查、审批委员会和定期审计。在 AI 到来之前,这种模式就已经捉襟见肘了。如今,自主智能体每小时能够发出数百或数千次数据请求,这种模式显然已无法适应新的现实。
治理需要作为一种服务来运作,通过自动化控制在数据交付时实时执行策略。数据合规越来越多地在运行时执行,以满足持续合规的最终要求。这给组织带来了更大的压力,要求他们准确了解自己正在处理什么样的数据,这意味着分类和数据智能需要嵌入到管道中,而不是作为事后补救。
为智能体时代构建治理
在智能体 AI 时代,DevOps 最佳实践并没有过时。事实上,它们变得更加重要。《2026年 DevOps 现状报告》强调,成熟的 DevOps 是 AI 成功的基石。数据治理同样如此。以下是最关键的实践:
- 将合规控制嵌入到数据管道本身,而不是作为下游的审查步骤。当请求或交付数据时,合规逻辑应自动执行。正是这一点将治理从瓶颈转变为一种服务。
- 用虚拟化、脱敏和合成的替代方案取代生产数据副本。虚拟化环境允许团队在几秒钟内创建类似生产环境的数据库副本,而无需移动原始敏感数据。可以根据精确的规范生成合成数据,包括生产环境中不存在的边缘情况。
- 使用模型上下文协议(MCP)为智能体化 DevOps 管道提供测试数据环境的标准接口。MCP 允许 AI 智能体和开发人员通过自然语言对话提示与数据基础设施进行交互,从而无需登录多个系统或等待基础设施团队建立集成。当请求一个妥善治理的数据副本像克隆一个生产数据副本一样简单时,团队默认就会做出正确的选择。
- 从基于审计的治理转变为运行时执行。分类和标记应该在初始阶段完成,并进行持续修正,然后在运行时强制执行。
两个场景展示了这在现代工程组织中是如何实现的。在第一种情况下,一个测试智能体在夜间运行回归测试,发现需要一份为了符合 PCI 标准而进行了脱敏处理的新支付数据库副本。
此时没有人类可以批准该请求。该智能体调用数据 API,在 90 秒内收到一个虚拟化且脱敏的副本,完成测试,并在未引发任何合规单据的情况下销毁了该环境。
在第二种情况下,一个 QA 智能体需要测试支付系统如何处理闰年期间 10,000 张同时过期的信用卡。这种情况在生产数据中并不存在。该智能体生成了一个完全符合这些特征的合成数据集,运行测试,验证修复,并在团队早会之前关闭了该缺陷。在此过程中完全没有涉及真实的客户数据。
这两个场景的共同点在于一种设计哲学:按需提供符合生产质量且合规的数据。所有这一切都是通过 API 或自然语言接口完成的,策略执行内置于交付机制中,而不是在事后作为关卡应用。
SDLC 的生产力从未如此之高,但它也从未同时向如此多的系统、智能体和环境暴露如此多的敏感数据。随着诸如《欧盟 AI 法案》等监管框架提高了合规 AI 开发的门槛,且非生产环境中的数据泄露事件持续成为头条新闻,做好数据治理的窗口正在收窄。
“SDLC 的生产力从未如此之高,但它也从未同时向如此多的系统、智能体和环境暴露如此多的敏感数据。”
难怪根据 Perforce Delphix 发布的《2025年 AI 与数据隐私现状报告》,86% 的企业正寻求投资 AI 和数据隐私解决方案。
能够很好应对这一局面的组织,不是那些构建手动合规流程的组织。相反,是那些将治理重塑为基础设施的组织:自动化、嵌入式、实时化,并为数据主要消费者是运行在机器速度下的自主系统的世界而构建。如果方法得当,坚实且值得信赖的数据支柱将切实加速创新。
这并非遥不可及的未来。工具、流程和技术已经就绪;现在正是工程领袖们打下这一根基的时候了。全 工智能