为什么微软押注临时身份来防止自主智能体失控

4 阅读5分钟

\n\n微软在 KubeCon 探讨了如何管控自主智能体。通过引入“临时身份”和权限自动撤销,结合 AI Runway 接口与治理工具包,微软旨在解决智能体的非确定性挑战。

译自:Why Microsoft is betting on temporary identities to stop autonomous agents from going rogue

作者:Frederic Lardinois

在本期 The New Stack Makers 节目中,我们在阿姆斯特丹举行的 KubeCon Europe 2026 上,采访了微软 Azure Kubernetes Service 的项目负责人 Jorge Palma

视频

他刚刚完成了一场关于 Kubernetes 智能体化运维的主题演讲演示,演示中一个智能体在约两分钟内完成了一项应用程序故障排查、问题缓解并交付了根因分析。

但在本次讨论中,我们重点演示了在边缘运行 AI 的机制、推理引擎新兴的抽象层,以及微软如何重新构思智能体的安全性。

“我们不希望它们拥有永久权限,”Palma 告诉 The New Stack,“而是希望它们的身份范围被极其严格地限制,并仅拥有执行用户批准的特定任务的临时权限。”

AI 的云边协同

边缘 AI 的宣传点听起来可能很熟悉:在本地处理以实现低延迟和数据驻留,然后将繁重的工作负载卸载到云端。Palma 承认,这一愿景早于当今的 AI 工具。“这说起来容易做起来难,”他在谈到早期的混合云承诺时说道。

他表示,改变的是原语的成熟度。例如,作为管理非 Azure 资源桥梁的 Microsoft Arc,以及边缘端的 Azure Kubernetes Service (AKS),结合改进的集群舰队管理,使得现在微软生态系统中的边缘 AI 变得更加容易。

与几年前的边缘计算宣传不同之处在于其连接纽带。Kubernetes 横跨两种环境,而集群舰队管理现在实现了过去需要手动执行的 GitOps 工作流的自动化。

“长期以来,GitOps 一直允许人们在边缘和云之间进行转换,但这一直是一个手动过程,”Palma 说道。“我这里有一个集群,那里有一个集群,我要使用 GitOps 部署到一个集群,然后手动或自动——但我得编写脚本——部署到边缘。”

“有了集群舰队(Fleet)之类的工具,你可以实现自动化;你仍然利用 GitOps 进行源码同步和部署,但舰队管理负责滚动更新,因为它理解这些环境的角色。它知道也许一个是测试环境,一个是开发环境,一个是生产环境。”

AI Runway 与可移植性赌注

如果说 Kubernetes 是云与边缘之间的连接纽带,那么推理引擎层仍然缺乏统一的接口。这一领域迅速变得拥挤。NVIDIA 的 Dynamo、微软的 KAITO 以及 llm-d(最近贡献给了 CNCF)都是可行的选择,但它们各不相同。

微软在 KubeCon 推出的 AI Runway 为推理工作负载提供了一个 Kubernetes API。团队可以在标准化的更高级接口上进行开发,同时在底层更换引擎。云端部署可能会运行一个引擎;边缘部署可能会使用更轻量级的引擎,但其承诺是 API 保持不变。

Palma 将其视为 Kubernetes 流行原因的自然延伸。“你可以使用其中任何一个,但你可以在更高级别的 API 上进行标准化,”他说道。“你甚至可以在云端选择不同的引擎,在边缘选择不同的引擎,并且能够通过相同的通用 API 来使用它。这有点像将 Kubernetes 原理应用于 AI。”

该项目允许你从 HuggingFace 选择一个模型,检查 GPU 是否充足,并计算成本预估。

保护不按脚本执行的智能体

只有当运行在顶层的工作负载是值得信赖时,可移植性和抽象才有意义。鉴于智能体具有非确定性,这是企业部署面临的最大挑战之一。

“你需要开始思考如何围绕 [智能体系统] 构建策略引擎,以及你实际上如何能够控制它们,”Palma 说道。“你需要让你的智能体向你提供一份它们正在执行的计划,然后根据某种业务策略对其进行验证……智能体在某种程度上是在交付所要求的内容,”Palma 说,“但它不受任何约束或任何策略的限制,因此它可能会以一种意想不到的方式完成任务。”

他的解决方案借鉴了微软管理其自身员工访问权限的方式:范围受限的身份、临时权限,以及任务完成后的自动撤销。应用于智能体时,这意味着智能体提交一个执行计划,策略引擎根据业务规则进行验证,如果计划不一致,“它就不应该被执行,应该重新构思并再次推敲。”

在基础设施层面,这转化为 AKS 上的 Pod 级沙箱。微软最近开源了 Agent Governance Toolkit,它以边车容器的形式部署,并以亚毫秒级的延迟强制执行策略。微软表示,该工具包解决了 10 类 OWASP 智能体化 AI 风险

Palma 将更广泛的挑战描述为为瞬息万变的未来而构建。“试图构建你希望在未来三年内保持静态且一成不变的解决方案是一件非常具有挑战性的事情,”他说道。

云原生生态系统曾为容器解决过一次可移植性和抽象问题。现在,从 Kubernetes 到集群舰队管理再到策略引擎,这些相同的原语被赋予了吸收 AI 工作负载转移的任务,而无需团队重头开始。Palma 在对话结束时提出的有状态问题(智能体的会话持久性、长运行推理作业的 Pod 热迁移)表明,即使是这个更为成熟的工具包,也仍在追赶被投射到它身上的工作负载。全 工智能