万字长文解读AI原生(AI Native)应用架构新范式,架构师迎接的下一场科技革命

723 阅读34分钟

万字长文解读AI原生(AI Native)应用架构新范式,架构师迎接的下一场科技革命

我是一个软件行业的老兵,且不说毕业后那前几年一直做开发,后来慢慢转做架构也有10年时间了。在这10年间,见证了编程语言和技术架构的飞速发展和更迭,从最早期的做单体应用、到后来的前后端分离、再到后来的微服务架构与进阶版的云原生架构,而随着业务场景的复杂化,将云原生架构与IOT和大数据有效结合适配多端。而如今,从22年底大模型时代真正来临至今,AI应用的发展速度是颠覆性的,远比移动互联网来的更加凶猛。AI不仅仅是一个新功能,而是一种全新的应用形态与系统范式,传统的架构分层、调用模型、数据流设计等,正在被“AI原生(AI Native)”重新定义。

今天跟大家聊个大的话题,关于AI新时代下,AI原生应用架构应该是什么样子,都需要考虑哪些因素,应该怎么做。接下来,我会从AI原生应用架构、开发技术、大模型、RAG与工具、上下文工程、AI网关、AI监测(可观测性)、AI评估与安全这几个层面,好好和大家聊聊这个事。

***注意,这篇文章仅代表个人观点***

AI原生应用架构

首先,我们先来整体看下AI Native应用架构的全貌,具体如下架构图所示:

PS:此架构图只代表个人观点,并不代表行业标准。

这张图,从左到右覆盖了终端接入、智能体中枢、模型与工具层,最底部进行了监控闭环。我认为AI Native下的应用架构,整体上应该具备以下三个核心特点:

1、以智能体为中枢驱动业务行为,而不是像之前一样,将业务逻辑写在后端,而是由智能体动态编排,Agent根据上下文、工具、业务意图进行决策和调用。

2、模型选择是动态的,通过智能路由(在LLM Gateway中),让系统可以自由切换各类大模型。

3、通过MCP方式,拓展模型能力,接入各类业务。

所以整体上用一句话进行总结:Agent为中枢、LLM为大脑、MCP为手。

最后,对这张图整体做一个较为简单的说明:这张图包含了从终端到大模型、从智能体到业务的全链路调用过程。

最左侧,是Client AI Apps部分,包括了iOS、Android和Web等不同客户端,通过AI Gateway(App Gateway)应用网关统一接入系统,这里AI网关的职责,除了传统应用网关所具有的流量路由和身份认证等职责、更承担了AI安全防护,确保模型调用与用户数据的合规、安全。

中间部分,是Agent智能中枢层,负责所有业务逻辑和任务的编排工作。而实现Agent层可以有多种方式,主要是通过一些智能体编排低代码平台和通过编程方式,借助于一些智能体开发框架来完成。

最右侧,是大模型与业务和工具层,Agent智能中枢层通过AI Gateway(LLM Gateway)接入大模型,通过AI Gateway(MCP Gateway)使用MCP方式连接业务与各类工具。

最底部,是系统监控与追踪层,用于实时追踪智能体行为、模型调用与数据流动,实现可观测、可审计、可调优的闭环。这意味着系统不仅能运行,更能自我反馈与改进。

开发技术

在AI Native架构下,开发体系相较于传统架构并不是推倒重来,而是在既有Web与后端体系之上,叠加了智能体与AI能力层,构建出新的开发范式。针对AI Native应用架构相关的开发技术,开发技术体系可以分为两大部分:

传统开发部分:这部分其实无需过多赘述,依然是我们熟悉的Web与服务端架构体系。客户端以Vue、React、Angular+TS开发为主;后端是微服务+基于K8s容器那套架构,后端开发语言随便,Java、Golang、Python等均可,如果偏向于微服务的话,Java生态好一些;整体链路追踪与指标收集,可以考虑基于OpenTelemetry实现。

AI相关的这部分会详细说明:

整体AI部分的开发语言,毫无疑问首选是Python,无论是开发智能体还是模型训练微调。虽然Java也有一些支持AI生态库,除非不得已不得不用,否则我相信没多少人会选择,具体原因也不过多解释了。

Agent智能中枢层:这一部分主要是构建以工作流+自主决策为主的智能体,技术层面,推荐使用智能体低代码平台+编码混合的方式。

低代码平台:Dify、Coze、LangFlow、n8n等。

编码方式的框架/库:推荐LangGraph+LangChain全家桶。其他的还可以考虑MetaGPT、SK等。

所以Agent智能中枢层的构建应该是非常灵活多变的,简单场景就上低代码平台,想可控度高就用编码方式,二者结合最佳。

服务/工具间通信:在MCP协议出现前,主要是使用Function Calling方式,但发展到现阶段没啥说的,MCP已成为智能体与外部服务通信的标准,所以使用MCP即可。

模型微调:模型微调方式现在有很多,想简单些就借助于各云平台自有生态进行微调,也有类似于LLaMA-Factory这种开源项目提供可视化页面进行微调,但大多数人我相信还是选择写代码方式进行微调,最常用的有Transformers、PyTorch、Unsloth和DeepSpeed框架(库)等。但微调时我们要依据不同的场景选择合适的微调方法,如LoRA、P-Tuning、Adapter等,不同的微调方法对应的数据集格式也都有所不同。微调这部分很复杂,涉及知识较多,在此也不详细说明了。

知识库与RAG:AI Native应用架构中一定少不了基于RAG的知识库部分,这里我们可以选择一些开源的知识库平台,例如接近企业级应用的RAGFlow,也可以自己写代码将知识Embedding处理后存储到向量数据库中,而向量存储的选择现在已经很多了,国产的OB等数据库现在都加入对向量的支持,我一般用Milvus比较多,也可以考虑Pinecone、Faiss等,这里也不过多介绍了。

整体总结下,AI Native应用开发在传统工程体系之上,增加了四个新的核心能力层:智能体中枢(Agent)、智能模型(LLM微调)、知识增强(RAG)、MCP通信。在未来,AI Native的开发主要工作将不再是“写业务逻辑”,而是“编排智能体与上下文”,这正是架构师需要迎接的下一场革命。

* 因为主要讲的是AI Native应用架构,所以并不涉及AI Infra相关技术层面内容。

大模型

AI时代之所以能真正到来并且发展的如此之迅速,大模型是最关键的因素,没有之一。如果没有大模型的存在,一切都白搭,所以大模型是这场AI革命的暴风眼,扮演着智能大脑的角色。所以AI Native应用架构的第一部分,我们先来聊聊大模型。

现在做大模型的厂商非常多,因为对算力要求高,所以玩通用模型赛道的厂商大都集中在大厂,并且美国和中国在模型的发展上走的是不同的道路,但不可否认的是,美国领先于我们。现在模型的分类,普遍分为通用大模型(ChatGPT、Claude、Gemini、Qwen、文心大模型、ChatGLM等)和垂直领域大模型,其中垂直领域的大模型,再细分,可以分为行业大模型(金融、教育、医疗等)和符合具体业务场景下的大模型。其中具体业务场景下的大模型,大多数我们都是选择用开源模型进行微调的策略,因为从0训练大模型的成本太高。

那我们如何选择模型呢?因为很多场景下,我们是多模型混合的方式,通用大模型 / 行业大模型 + 微调后具体业务场景下的大模型。而通用大模型 / 行业大模型,即使是开源的,因对算力要求较高,本地也难以部署,相信直接用MaaS平台是一种最佳选择。而MaaS平台众多,每个MaaS平台的各类模型也有不同参数量级,除了考虑政策、价钱和结合具体业务场景选择不同类型模型等因素之外,我们应该如何选择。

1、建议前期先选择能力最强的模型,验证系统业务逻辑和能力边界,然后再逐渐降配替换成一些其他的模型。

2、如果要微调模型,除了考虑算力层面(推荐直接用MaaS平台搞了,按需使用),准备训练数据集是最大的工作量。不建议从0开始造轮子,优先去Hugging Face和魔搭社区去找类似的数据集去进行评估和修改,或者考虑人工 + 蒸馏方式去造训练数据。蒸馏虽不建议,但是大家谁不用,懂得都懂。

3、不要迷信于DeepSeek一体机那种东西,销售吹的天花乱坠,最后使用时谁用谁知道,也不多说了。

最后总结一下,训练和跑模型,无非就是受限于算力,信息安全允许情况下,还是优先推荐用MaaS平台,验证业务能力边界,然后再考虑以后自建AI算力去搞。当有了自己的AI算力后,自然而然的,建立模型自动化/半自动化模型训练+评估体系,逐渐走向正轨,但这个过程一般会比较漫长。

PS:当然,不差钱有实力的企业,有算力,该咋玩咋玩,我上面所说的都是针对没那么富裕的企业一些建议。

架构师视角:在AI Native体系中,架构师面临的核心权衡是性能(Performance)× 成本(Cost)× 可控性(Control),选强模型验证能力边界,用轻量模型支撑业务规模,用私有模型确保安全与合规。最终目标,不是不是拥有最强的模型,而是构建最契合业务场景的智能体系。

RAG与工具

接下来,我们来说说RAG与工具。

RAG:在AI Native架构中,RAG是连接模型与知识的关键桥梁。它让模型不再受限于预训练数据,而能实时检索外部知识,从而实现动态记忆与上下文增强。RAG这部分不多进行说明,因为之前在其他的文章中,详细介绍过传统的RAG、多模态RAG、Agentic RAG与GraphRAG的区别、联系和未来的一个发展方向,大家可以参考《一文读懂传统RAG、多模态RAG、Agentic RAG与GraphRAG》,建议大家去读一下。最后总结,构建知识库时,建议封装一个大的RAG组件,以Agentic RAG为核心,其中融合多模态RAG(包含了传统RAG部分)与GraphRAG,构建更智能的RAG系统。

具体实现层面,前面也简单提到过一些,个人还是推荐用开源RAG知识库平台 + 编程这样的一个组合的方式,现在开源的RAG知识库平台,我推荐使用RAGFlow,功能强大,也最接近企业级使用场景,当然,如果信息安全允许的情况下,使用一些模型厂商的知识库也没问题。而编程层面,侧重使用一些LangChain和LlamaIndex等框架来方便快速开发知识库模块,尤其是Agentic RAG部分,而且我们很多时候,还要对知识库进行用户权限和数据权限的限制,这些无疑使用编程方式来实现最佳。

工具:这里的工具是一个范指的概念,使模型具备感知外部世界与执行任务的能力。主要指的是大模型自身固有能力之外,通过调用一些API,来实现自我能力的拓展,例如调用天气的API来获得某地某一时间的实时天气,而这种实时性,是大模型本身不具备的能力。

具体实现层面,在大模型出现早期阶段,通常使用Function Calling方式去实现,但由于使用起来不方便,因为各模型厂商调用工具的方式不同,标准不同,整体适配和后期维护成本太高,所以2024年11月份Anthropic推出了MCP协议,旨在标准化大模型与工具的交互方式。MCP现发展至今,已逐渐成为了业界默认的大模型与工具交互标准。主流大模型厂商都添加了对MCP的支持,除此之外还出现了一些MCP服务的托管平台,例如魔搭MCP、MCP.SO与阿里百炼MCP广场等。后来,谷歌又推出了A2A协议,思路类似于MCP,旨在规范智能体间的调用,但认可度与普及度暂未达到类似于MCP所带来的影响,所以还需观察,这里不过多展开说明。

MCP虽好,但是也存在一定的问题,例如MCP带来的安全问题,虽引入OAuth2.1的授权方案,但需开发者自己实现;除此之外,还存在提示词注入和工具投毒工具等风险,因为MCP将大量提示词和工具描述等信息直接添加到模型输入中,模型本身是无法识别信息的合法性,无法感知上下文是否被篡改。再例如,大模型调用工具的准确性问题,由于大模型每次需要接收全量的工具描述信息,在MCP工具数量过多时,容易超出模型支持的上下文限制,自然也会影响模型调用工具的准确性,除此之外MCP也会消耗更多的Token。

最后总结一下,无论RAG的知识增强还是MCP调用工具,本质上都是对大模型能力的外延与拓展,使大模型具备更广的知识和更智能的操作能力,充分体现了大模型作为大脑,工具作为能行动的双手。

上下文工程

我们继续,这一部分,跟大家聊聊上下文工程。

在大模型时代,提示词工程是最早被系统化的方法论。但随着智能体的业务复杂化、流程动态化,拼接式上下文难以支持多轮任务、动态决策与长期记忆。于是,上下文工程应运而生。所以在聊上下文工程之前,我们先来看看提示词工程。

提示词工程(Prompt Engineering):是在大模型出现之后,针对输入的提示词形成的一套方法论,主要为了提升大模型的输出质量。它不是简单的提问,而是一套覆盖了角色与目标、清晰完整的上下文、范例引导和定义结构化输出格式的一套综合的系统性方法论,可以最大化的引导模型输出我们期望的正确结果。虽然提示词工程在某些特定简单场景下效果突出,但随着Agent的业务越来越复杂化,处理流程越来越长,难以动态适应复杂任务。而且提示词工程多采用拼接对话历史的方式来解决记忆问题,难以建立跨多次会话的长期记忆。所以基于提示词工程的各种限制,后来又引伸出来了上下文工程的方法论。

上下文工程(Context Engineering):它的出发点,在于让模型理解环境整体,而不再局限于设计静态的提示词模板。致力于创建一个上下文工程系统,确保模型在执行任务时,能够实时获取并利用完成该任务所需的所有相关信息,例如外部知识、历史记忆、工作流编排、可用工具及执行环境等因素,所以我们上面讲的基于RAG的外部知识检索、MCP工具清单描述都属于上下文工程的一部分。在这里,我们重点说下上下文工程中的记忆系统。

之前的短期记忆,尤其是单个会话的短期记忆,我们或许可以通过对话历史拼接的方式去实现,但如果涉及多个会话则不行。所以在上下文工程中,我们需要引入记忆存储系统概念,用于存储跨多个会话的记忆,最后可以从中提取出例如用户的偏好、重要的历史信息和决策内容等,真正可以让大模型记住用户,提供更个性化的服务。

而大家是不是有这种疑问,那上下文工程,所使用的Token是不是更多了。某些场景下确实如此,但我们需要在复杂的场景下,学会高效的管理上下文,例如对上下文进行压缩与摘要提取,在保留关键信息的同时减少Token消耗;使用上下文重排(Re-Ranking)技术,将最重要的信息放置在模型最关注的位置,从而提升长上下文处理的可靠性。

关于具体上下文工程实现层面,给大家提供一个思路:

首先设计上下文工程时,我们要想清楚一件事,需要智能体在执行过程中知道:我是谁,我了解你什么,我过去做了什么,我现在正在做什么。遵从此原则,基于大家对于上下文工程的实践中积累的经验,普遍将上下文处理的策略分为四大类:写入、选择、压缩和隔离。从字面上也很好理解,写入指的是将信息进行持久化存储;选择指的是将写入的记忆进行检索,有选择性的拉入到上下文中;压缩指的是保留核心上下文信息,减少token消耗;隔离指的是对上下文信息进行拆分,让每一步只用到专注于自己的任务的上下文信息。

其次,我们需要设计一个多级记忆系统,通常分为短期记忆与长期记忆。短期记忆负责管理当前任务会话的完整上下文,不仅要包含对话历史,还要包含最近的工具调用结果、当前的执行计划和中间结论等;长期记忆负责沉淀持久化知识,存储跨多个会话的持久化知识库,如用户偏好、过去项目的摘要、需长期记忆的事实等,这些都是实现个性化和长期连贯性的关键因素。

最后,涉及一个记忆转换问题,何时将短期记忆,转换为长期记忆。常见的时机包括:

1、对话自然结束时,提取关键信息保存为长期记忆。

2、识别到重要特征时,例如当系统识别到重要的用户偏好或个人信息时,主动进行保存。

3、定期摘要,例如每10轮对话时,对短期记忆进行总结并存入长期记忆。

最后总结一下,简单的场景下,或许用提示词工程就可以解决;复杂场景下,需要我们设计上下文工程,但设计一个好的上下文工程也很复杂,大家可以参考上面写的现在业内好的一些实践方法论。

AI网关

在AI原生架构中,AI Gateway(AI网关)是系统的“交通中枢”,负责连接模型、智能体与业务系统。AI网关,这里也不介绍那么细了,大家可以先读一下之前我写的文章《AI网关(AI Gateway)详解,远比你想象的要复杂》,主要介绍了应用网关和大模型网关,但那篇文章中的架构图和今天这篇文章中有些区别,那篇文章中没有将MCP网关独立出来,直接合并到了AI网关的API Gateway中,MCP部分也介绍的比较简单,所以今天主要对MCP网关进行些补充。

MCP网关,顾名思义,针对MCP进行统一管理,它的核心使命是让智能体能够以标准化、可扩展的方式访问外部工具与服务。其中功能应包含将已有系统的HTTP服务转换为MCP服务,所有经由MCP服务请求由MCP网关进行统一进行接入、安全防护、流量管理、追踪等处理。下面简单说明下:

1、协议转换与适配:将已有系统的RESTful/HTTP服务转化为符合MCP协议规范的服务,并提供统一的接口注册与元数据管理,使智能体能自动发现并调用这些服务。

2、统一接入与安全防护:经由MCP协议的请求,都由MCP网关统一接入,负责身份校验、访问控制、请求限流、防注入与审计追踪等处理。

3、流量与成本治理:MCP网关也要同时承担流量分发、调用限额、计费统计等任务,确保在多智能体、多工具共存环境下的公平与稳定。

4、可观测与调试追踪:建立可追溯的日志链路,便于问题定位、异常恢复与智能体行为分析。

总结:AI网关(AI Gateway)是AI原生架构中的关键枢纽,承担着模型、智能体与业务系统之间的统一接入与治理职责。

AI监测(可观测性)

这部分,我们来聊聊对AI原生应用进行整体监测(可观测性)的问题。

在传统应用中,监控(Monitoring)往往聚焦于系统运行是否正常,例如CPU是否过载、接口是否报错、延迟是否过高等,但AI应用与传统应用最大的区别之一,就是AI执行结果的不确定性与过程的非确定性,例如模型输出可能随上下文波动、知识库检索结果每次不同、多Agent协作链路可能出现推理偏移或信息丢失。尤其越复杂的编排流程,这种不确定性与非确定性越大,所以针对AI应用进行监测就显得更重要了。在AI应用中,我们通常将这种监测,叫做AI应用的可观测性。一个好的可观测体系,应该具备以下功能:

1、端到端的链路追踪:支持端到端的日志采集与链路追踪,追踪每一个环节的输入输出,例如用户请求 → Agent编排 → 模型调用 → 工具执行 → 返回响应的全链路日志采集与追踪。每个环节的输入输出、延迟、异常均应可回溯,以便快速定位问题和分析推理过程。

2、全栈可监测:AI应用的监控不应止于系统层(CPU、内存、API 吞吐量等),更应包括模型与推理引擎的动态指标,例如Token消耗、上下文长度、提示词缓存命中率、模型调用错误率与响应时间、知识检索召回率与重排准确度等。通过统一指标体系与异常阈值告警,团队能在问题影响用户前快速响应,并精确评估成本消耗。

3、自动化评估:通过引入评估Agent进行自动化评估,例如对模型输出进行幻觉检测、不一致性识别、答案质量评估;对知识检索结果进行准确度与相关性打分等。评估结果可作为反馈信号进入后续AIOps流程,实现模型与系统的自我优化。

具体技术实现上,链路的追踪,则是基于OpenTelemetry标准展开,建立跨服务Trace ID体系。如果是编程方式,无论是Java还是Python,都有对应的开源框架/开源库支持,通过埋点方式实现;如果是智能体低代码平台,类似于Dify,自身都支持链路追踪;所以二种方式相结合也很方便。硬件层面的监控,则需要依赖Infra本身自带的工具了,无论是云平台自身提供的监控体系还是通过Prometheus + Grafana实现,这个和传统应用的监控方式是一致的,不过多介绍。自动化评估层面,现在有一个特别火的方向是搞AIOps,一些云平台厂商自带AIOps体系组件,但AI Native 架构中是大家对此都采取半自动化方式,只让其给出意见作为参考,或者我们授权后AI方可去执行运维相关操作,否则完全自动化交给AI处理,风险太大。

总结:AI Native应用架构中,可观测性至关重要,通过端到端追踪、全栈监控与自动化评估的结合,AI应用走向:可解释、可调优、可进化的监控新范式。

AI评估与安全

最后一部分,我们来聊聊AI应用的评估与安全性问题,这两个从整体AI Native应用架构整体角度来看,还是起辅助作用居多,虽然不直接参与智能体的决策执行,却决定了整个系统的可靠性、可信度与可治理性。

AI应用评估:对AI应用进行评估,我们首先要明确我们的评估目标是什么,其中我们需要划分为多个维度,从我个人角度认为,我们应该拆分为LLM评估、RAG评估、工具调用评估与AI应用整体评估四个维度。其中LLM评估,应该重在评估LLM输出的准确率、一致性、幻觉率、响应延迟和Token成本,具体实现上,考虑人工打分、BLEU/ROUGE、Eval Agent等方法,可借助于LangSmith、TruLens、OpenCompass等平台;RAG评估时,我们需要侧重于看召回率、准确率和F值(具体可参照我之前写的文章《详解RAG评估指标与评估方法》);工具调用评估应该侧重于调用成功率、平均延迟、错误率、幂等性等,实现方法可通过日志分析和请求模拟测试的方式;而最后AI应用整体的评估,应该侧重于任务成功率、结果准确率、端到端响应时延、异常恢复率等。整体用一句话来概括,LLM是衡量“脑子好不好用”、RAG衡量“知识准不准”、工具调用是衡量“手脚稳不稳”、应用整体评估是衡量“整体有没有协同好,应用最终效果好不好”。明确了评估维度后,接下来我们需要解决“怎么评”的问题,也就是评估方法与实现路径。

关于评估的方法层面,现在主要分为人工评估与自动化评估两种方式。人工评估相信不用多说,目前还是最靠谱的评估方式,主要依赖于对模型输出或任务完成结果进行主观或半结构化打分,优点是评估的可信度高,缺点是评估结果具有一定的主观因素在其中,而且评估的成本太高,周期也长,尤其进行全量评估时体现的更为突出;而AI自动化评估现在是AI工程化发展的重要趋势,需要构筑AI评估系统,可以从应用各个维度进行评估,优点是效率高、可复用性强、方便量化与分析,缺点是前期构建的复杂度高,评估的可靠性与准确率不如人工评估的靠谱,后续仍需人工评估抽样验证。本质上,自动化评估并非简单的脚本打分,而是一个持续运行的AI评估系统(Eval System),它包含数据采集、任务执行、指标计算与反馈优化四个环节,是现代AI工程体系中的关键基础设施之一。整体总结,随着场景的越来越复杂化,AI应用评估应采取“自动化为主、人工校准为辅”的混合策略。

关于AI评估还有一个重要的点,关于评估数据集的构建,如何能构建大量、高质量的数据集,更是AI应用评估时的一大挑战。其中的一个方法,依靠人工去构建数据集,肯定可行,但是难度高,构建成本也高,需要依赖于该AI应用的领域专家进行设计和构建,但是数据集的可用性和准确性都是最高的。其次,我们考虑换一种思维,参考系统输出的日志数据进行数据集的构建,这种方式无疑降低了构建成本与难度,而且拿到了日志数据,借助于AI或人工构建均可,可谓是性价比最高的一种。最后一种,完全依赖于AI去构建,生成高效,但是数据集质量难以把控,需要依赖于人工进行审核。整体总结,很多时候,以上三种方式都会用到,并且结合评估过程中发现的失败案例与用户反馈数据,来进行重点采集、清洗与标注,丰富和强化各类数据集,同时,这些数据,以后也是模型微调中可用到的高质量数据。从长远来看,一个好的评估数据集不仅是质量评估的基础,更是后续模型微调(Fine-tuning)和持续学习(Continual Learning)的核心资产,它让AI系统具备了“反馈—优化—再学习”的能力。

总结:AI评估并非事后审查,而是AI系统的反馈引擎,它让架构师不仅能看到AI的输出,更能理解它的表现与缺陷。当评估体系与数据闭环结合,AI系统就具备了真正的“自我学习”能力,评估 → 反馈 → 微调 → 再评估 → 持续优化。这也是AI Native系统区别于传统软件的最大特征。

AI安全:自大模型真正意义上走进我们生活之后,围绕着大模型安全的话题相信将会是一个永恒的话题,而基于大模型的AI应用,不单单要考虑大模型层面的安全,而是要从AI应用整体角度出发去考虑,这其中包含了大模型安全、数据安全、身份安全层面、基础设施层面的安全和AI应用整体的安全,这五大维度。

大模型安全层面:潜在威胁贯穿输入、推理与输出的整个生命周期。在输入阶段,模型可能遭遇对抗样本、提示词注入或恶意文件上传等攻击;在推理阶段,存在模型越狱、RAG知识库被爬取以及函数调用被劫持等风险;在输出阶段,则可能生成钓鱼信息、虚假建议或隐蔽指令,带来合规与安全隐患。为应对这些问题,应在系统中部署大模型原生安全防护层(Model-Native Security Layer),作为连接应用与模型之间的可信中间层,实现从输入到输出的全链路防护。该层需要对请求进行动态检测、上下文隔离与内容审查,确保输出结果安全、合规、可控,同时实现AIGC内容可追溯、责任可追踪、满足监管与治理要求,从而构建一个可持续、安全可信的AI应用生态。

数据安全层面:在大模型的全生命周期中,数据从采集、传输、存储、访问、使用到删除的每个环节,都潜藏着泄露、滥用或被逆向推断的风险。企业更是担忧其商业数据被二次训练滥用,个人用户关注隐私与数据控制权。所以AI系统必须建立一个覆盖全流程的数据安全防护体系,以实现从源头到销毁的可控与合规。具体实现上,在数据采集阶段,对数据分级分类与脱敏处理,防止敏感数据直接进入模型训练;传输阶段,采用HTTPS/TLS加密与私有网络隔离,保障通信链路安全;存储阶段,通过多租户隔离与端到端加密,强化数据主权与访问边界;访问与使用阶段,实施精细化权限控制,在AI安全护栏中嵌入实时检测与过滤机制,防止越权调用与敏感泄露;删除阶段,支持用户账户注销后的彻底清除与迁移能力,确保“数据可删除、可转移、可追溯”。通过建立这一体系,实现数据可控、责任可界定、隐私可保障的可信运行环境。

身份安全层面:随着AI系统中大量非人类身份的出现,例如包括API密钥、AK/SK、OAuth令牌等,传统的静态权限模型已难以适应AI应用的高动态性与复杂行为模式,极易引发凭据泄露、越权访问及供应链攻击等风险,因此,AI原生系统需要构建覆盖“事前、事中、事后”的全生命周期身份安全闭环体系。事前,通过异常访问检测与行为分析,识别潜在的凭据滥用与风险;事中,实施动态权限管理,采用即时授权(Just-in-time Access)与细粒度访问控制,严格遵循最小权限原则;事后,依托自动化审计机制清理失效或僵尸凭据,防止长期遗留风险。技术实现层面,可借助密钥管理服务(KMS)实现凭据的统一托管、周期性轮换与访问分级控制,并通过M2M(Machine-to-Machine)身份管理能力对非人类身份进行集中治理,支持动态授权与生命周期自动化管理,从而全面提升AI应用环境下的身份安全与合规防护水平。

基础设计安全层面:AI原生应用的底座一般由云计算、容器、GPU集群及网络资源共同构成。随着AI计算规模化发展,算力资源共享、容器动态调度、跨租户访问与模型部署自动化等特征,使基础设施面临新的攻击面与治理挑战。在计算与容器安全层面,需防范容器逃逸、镜像污染与恶意镜像拉取等威胁。应通过可信镜像签名、运行时沙箱隔离(Runtime Sandbox)、最小化镜像策略与容器镜像扫描机制,确保运行环境可验证、可追溯;在网络层面,强化南北向与东西向流量的隔离与审计,使用零信任架构及微分段策略,防止内部横向渗透;同时对API调用与Agent通信进行加密与访问策略控制,防止数据与指令被劫持;算力与资源安全层面,应为GPU集群部署资源配额与监控机制,防止资源滥用与挖矿攻击,并通过访问白名单与租户隔离策略,保证计算资源的安全可控。除此之外,还需建立基础设施级可观测与审计体系,对系统异常、算力调用、配置变更与运维行为进行全链路记录与告警,确保潜在风险可追溯、可定位。通过以上多层防护手段,真正做到算力安全、网络可信、运行可控、风险可追,为上层模型与智能体的安全运行提供稳固的防线。

AI应用整体安全层面:需构建一个多层次、可治理、可审计的安全体系,整个AI Native应用在开发、部署与运行过程中实现纵深防御与闭环治理。在体系架构层面,通过安全分层设计实现不同安全域的职责隔离,前端交互、Agent调度、模型服务与数据访问之间应通过安全网关与访问策略实现分区隔离,防止跨层渗透;运行安全层面,引入统一的安全治理平台,对模型调用、工具访问、数据操作与Agent行为进行集中监控与实时审计。通过事件检测、异常行为识别与风险分级处置机制,实现安全威胁的可发现、可响应、可追溯;合规与责任层面,建立AIGC内容安全审查与可追溯体系,确保生成内容符合伦理与监管要求,输出的文本、图像、音视频等内容应具备可验证来源与责任标识,实现“谁生成、谁负责”。最后,还需推动安全自动化与治理闭环建设,结合AIOps与安全自动响应(SOAR)能力,在发现异常后自动触发隔离、封禁或修复流程,实现安全事件的快速闭环处置。通过上面这一套机制,AI Native应用的安全治理从“被动防御”走向“主动防控”,实现系统在复杂运行环境下的可信、安全、合规、可控,为AI原生生态的长期可持续运行提供坚实保障。


回顾过去这二十年,真是感慨万千,软件架构几乎每十年都会经历一次范式转变,从PC互联网时代到移动互联网时代到AI智能时代;从单体到微服务,从微服务到云原生,而现在,我们正处在AI 原生(AI Native)时代的起点。这一时代的核心,不再是“程序驱动业务”,而是“智能体驱动业务”。我们不再只是编写业务逻辑,而是在设计智能的结构;我们也不再只关注系统的可用性,而更要关注系统的自适应性、可演化性与可信度。对于架构师而言,不仅要懂系统,还要懂智能;不仅要构建稳定的系统,更要构建可学习、可治理、可进化的系统。