Agentic AI 工程化蓝图:从 Demo 到生产级智能体的 5 步落地密码

114 阅读33分钟

Agentic AI 工程化蓝图:从 Demo 到生产级智能体的 5 步落地密码

在过去的一年里,我深入了解并部署了多智能体式AI系统——不仅仅是华而不实的演示,而是嵌入在医疗保健、生命科学和企业运营实际工作流程中的生产级智能体。这些智能体进行推理、采取行动、使用工具、与后端系统集成,并推动了可衡量的业务影响。

我学到的是:一个巧妙的演示和一个可靠的AI智能体之间的区别在于工程严谨性。仅仅依靠提示技巧和直觉是行不通的。构建真正有效的智能体需要系统性思维——它们如何管理上下文、构建决策、选择正确的模型、安全操作以及赢得用户信任。

这就是为什么我分享一个我们通过实践经验开发的实用框架:智能体式AI工程,一个包含五个部分的学科:

  • • 上下文工程——在正确的时间向模型提供正确的信息
  • • 工作流工程——将智能体行为构建成可靠的多步骤流程
  • • 模型工程——为每个任务选择或调整正确的模型
  • • 智能体运维(AgenticOps)——在生产环境中测试、监控、保护和优化智能体
  • • 智能体用户体验(Agentic UX)——设计使AI行动透明、可控和可信的界面

如果您是AI领导者、创始人、投资者或工程师,准备构建在实际环境中经得起考验的真实智能体——这份蓝图就是为您准备的。

  1. 上下文工程:在不超载的情况下喂养大脑

想象一下,让您最聪明的团队成员参加一个没有议程、有400页随机笔记的会议,并期望他们“自己搞清楚”。这就是大多数AI智能体在我们将过多、过少或错误类型的信息天真地塞进LLM提示时所面临的情况。

上下文工程是设计智能体在每个步骤中确切看到什么以及如何看到的学科。它不再仅仅是关于巧妙的提示。它是关于动态地塑造智能体的环境,使其拥有推理、行动和适应所需的一切——而不会被噪音淹没

上下文堆栈:智能体的思维中包含什么?

AI智能体的上下文不仅仅是您最新的问题——它包括:

  • • 系统指令:智能体扮演什么角色?它遵循什么目标或规则?
  • • 用户输入:即时请求或命令
  • • 短期记忆:最近的步骤、对话或采取的行动
  • • 长期记忆:持久化的事实、偏好或先前结果
  • • 检索到的知识:从外部来源提取的相关文档、数据或事实
  • • 工具定义和输出:API、计算器、函数——以及它们最新的结果

每次调用模型都像是给它一份简报。上下文工程是关于为相关性、清晰度和完整性策划这份简报

为什么它很重要:上下文是性能瓶颈

当提供结构不良或不相关的上下文时,即使最强大的LLM可能也会表现不佳——或产生幻觉。另一方面,即使是较小的模型,在获得清晰、集中的任务视图时也能大放异彩。

在我们的一项医疗保健智能体中,我们通过以下方式将幻觉率降低了一半:

  • • 总结冗长的患者病史,而不是粘贴原始EHR文本
  • • 以表格形式插入结构化的工具输出,而不是自由文本
  • • 仅优先考虑最相关的检索到的临床指南

洞察上下文不仅仅是关于包含什么——它更是关于排除什么。

我们使用的技术

  • • 检索增强(RAG):使用向量数据库上的语义搜索来提取最相关的知识,而不仅仅是关键词匹配
  • • 上下文压缩:总结、分块或提取关键事实,以在不丢失意义的情况下保持在令牌限制内
  • • 结构化模板:以一致的格式(例如,JSON、表格或模式)格式化输入,以帮助模型更可靠地解析它们
  • • 工具感知提示:教智能体可以使用哪些工具以及如何使用(例如,“如果价格 > 100美元,则使用calculate_tax()”)
  • • 草稿本:让智能体编写中间思想或计划,这些思想或计划成为下一步的上下文

常见陷阱

  • • 上下文膨胀:提供整个数据库或完整的文档转储——导致令牌超载和混淆
  • • 缺少关键输入:忘记包含工具输出或用户偏好——导致错误的决策
  • • 不一致的格式:在不同步骤中混合样式或结构——使模型混淆

如果您看到智能体行为不稳定,不要只责怪模型。应审计上下文。

上下文工程师的真正工作

在复杂的工作流程中,我们不仅仅向智能体提供原始输入——我们在每个步骤中动态构建上下文。

例如:

  • • 在供应商成本优化智能体中,我们可能会提取最近的发票,检测异常,并总结可疑的行项目,然后才要求模型推荐行动。
  • • 在法律合同审查智能体中,我们可能会仅检索与知识产权或责任相关的条款,并将其构建成清晰的“危险信号”清单,然后进行分析。

这确保了每次LLM调用都具有范围、焦点,并获得所需的信息——不多不少

类比:如果工作流工程是编写剧本,那么上下文工程就是为每个场景设置舞台。

上下文是活的

最好的智能体在工作时会演变其上下文。它们记住自己做了什么,学习什么有效,并只带出接下来重要的事情。

上下文工程通过以下方式实现这一点:

  • • 记忆机制(短期和长期)
  • • 上下文修剪(删除陈旧或不相关的信息)
  • • 动态注入(仅在需要时拉取新数据)

这不是静态提示。它是交互式上下文架构

在智能体系统中,上下文是指南针。如果它偏离了——即使是轻微的——您的智能体也会走向错误的方向。

做得好的上下文工程是所有其他学科的基础。它是我们不仅赋予AI信息,而且赋予其理解的方式。

因为归根结底,智能体不仅仅是关于我们使用什么模型——它们是关于我们教这些模型要关注什么信息。

  1. 智能体式工作流工程:不要让AI一口气完成所有工作

假设您雇佣了一位才华横溢的实习生,并要求他们:

“阅读300页政策文档,找出不一致之处,撰写摘要,起草建议,并在午餐前发送给法务部门。”

这位实习生会失败——不是因为他们无能,而是因为您给了他们一个没有结构的单一任务

同样的错误在智能体式AI中也经常发生。

您将所有内容都扔进一个提示中,并期望LLM能够奇迹般地一次性完美地推理、规划、行动和写作。剧透警告:它不会。

智能体式工作流工程是解药。它是将复杂任务构建成模块化、多步骤流程的学科,其中每个步骤都具有:

  • • 明确的目标
  • • 正确的上下文
  • • 正确的工具
  • • 以及明确的交接给下一步

思考流程图,而不是独白

LLM不是超智能的巫师。它们是在限定框架内令人难以置信的推理者和写作者。工作流工程为它们提供了这个框架。

我们将任务分解如下:

循环直到完成:

    1. 理解目标
    1. 提出澄清问题
    1. 规划子任务
    1. 调用工具
    1. 评估结果
    1. 调整策略
    1. 生成最终输出

我们不是试图一次性“解决”整个问题,而是对智能体的推理进行排序和搭建脚手架

一个真实案例:供应商成本优化智能体

在我为企业财务团队构建的一个智能体中,目标是从数百张发票中找出潜在的供应商多付款项。

朴素的版本在一个步骤中完成了这项工作:

“审查这200张发票,找出任何多付款项。”

它失败了——速度慢、模糊,经常产生幻觉。

我们将其重新设计成一个工作流:

  1. 1. 筛选:使用启发式方法标记可疑发票
  2. 2. 分组:按供应商、金额和日期进行聚类
  3. 3. 分析:调用LLM评估每个聚类是否存在重复收费
  4. 4. 解释:生成原因(“2/14可能存在重复,加价15%”)
  5. 5. 推荐:建议人工跟进或自动化路径

结果呢?更快、更清晰、可解释。每个步骤都有特定的上下文窗口、目标和评估路径。

常见模式

智能体式工作流并非随机——它们由可重用模式构建而成:

  • • 规划者-执行者:一个模型进行规划,另一个模型执行(就像主管和实习生)
  • • 工具使用:智能体决定何时调用计算器、数据库或Web API
  • • 反思循环:智能体批判并迭代自己的输出
  • • 人机协作:某些步骤需要用户批准(非常适合建立信任)
  • • 重试与恢复:如果某个步骤失败或返回垃圾信息,尝试另一种方法或工具
  • • 并行智能体:多个智能体独立处理子任务,然后合并结果

类比: 将智能体式工作流想象成一场接力赛。每个步骤将接力棒(数据、输出、决策)传递给下一个跑步者。做得好,它们就能自信地冲过终点线。

为什么工作流很重要

结构良好的工作流为您提供:

  • • 上下文控制——每次LLM调用都有集中、轻量级的输入
  • • 模块化——更容易调试、测试和改进单个步骤
  • • 弹性——智能体可以优雅地失败并恢复
  • • 可观察性——您可以准确追踪决策是如何做出的
  • • 安全性——您可以插入验证或批准门槛

在我们部署的一个医疗保健智能体中,一个反思步骤在智能体生成临床笔记之前捕获并纠正了对实验室值的误解。如果没有那个步骤,错误就会被忽视。

有帮助的工具和框架

  • • LangChain / LangGraph:链条+智能体=灵活的编排
  • • LlamaIndex:具有动态检索功能的工作流运行器
  • • CrewAI / Autogen:多智能体协作框架
  • • 状态机 / DAG:明确定义执行路径

但工具并非魔法。设计才是最重要的。

设计一个出色的工作流

  1. 1. 从最终目标开始。 智能体应该产生什么结果?
  2. 2. 分解它。 需要哪些子决策或行动才能实现目标?
  3. 3. 分配职责。 智能体应该处理什么,用户或外部工具应该处理什么?
  4. 4. 设计转换。 一个步骤如何通知下一个步骤?
  5. 5. 处理边缘情况。 如果某个步骤失败、超时或返回模糊输出,会发生什么?

额外提示:添加检查点。强制智能体在继续之前停止、反思或获取用户输入。这些使系统更加健壮。

出色的智能体式工作流感觉就像一个运行良好的流程:深思熟虑、模块化且可追溯。

糟糕的工作流感觉就像一个恐慌的AI在原地打转。

工作流工程是如何让LLM从“智能”变得可靠的。 这是一个智能体喋喋不休——和一个完成工作的智能体之间的区别。

当与强大的上下文工程相结合时?您将获得那种真正在团队工具箱中占有一席之地的智能体。

  1. AI模型工程:为工作选择正确的大脑

想象一下建造一辆F1赛车,却安装了一台喷气发动机——或者更糟,一台割草机发动机。一个动力过剩但无法控制;另一个根本跟不上。

当您为智能体选择了错误的AI模型时,情况就是如此。

AI模型工程是为智能体需要执行的每个任务选择(有时是塑造)正确的大脑的技艺。它关乎平衡性能、成本、延迟和专业化——并精确地做到这一点。

当您做错时,您的智能体会变得不可靠、昂贵或慢得令人痛苦。做对了,它就会嗡嗡作响——快速、智能且可扩展。

并非所有大脑都生而平等

今天的模型格局是一个工具包,而不是一个等级列表。

您拥有:

  • • 大型通用LLM,如GPT-4或Claude Opus——适用于复杂的推理、综合或长上下文
  • • 更小、更快的模型,如GPT-3.5或Mistral——非常适合轻量级逻辑、结构化任务或短轮次延迟
  • • 开源模型,如LLaMA或Gemma——当隐私、定制或成本控制很重要时是理想选择
  • • 多模态模型,如Gemini或GPT-4o——对于需要跨模态(文本、图像、音频)查看、阅读、听取或生成的智能体至关重要

然后是微调适配器增强模型——当通用大脑在准确性、语气或合规性方面不足时,您的首选。

在实际系统中,一刀切的模型方法几乎从未能扩展。这就是为什么许多智能体系统现在以多模型模式运行——使用重量级模型进行规划,使用轻量级模型进行执行。

将您的模型视为团队中的专家。您不会要求律师撰写营销文案——也不会要求通才解释医学扫描。您会选择适合工作的大脑。

推理模型与非推理模型

在智能体设计中,最重要的区别之一是:

  • • 推理模型:这些是您的“大思想家”——用于规划、决策、综合或模糊任务。示例包括GPT-4、Claude Opus和Gemini。它们功能强大、昂贵,最好谨慎使用。
  • • 非推理模型:这些模型不“思考”,而是执行。它们擅长分类、提取、格式化、过滤或总结。它们更便宜、更快,而且通常更稳定。示例包括像Mistral这样的小型开源模型或专门的微调模型。

在我们为法律条款分析构建的一个系统中,我们使用GPT-4进行解释和论证——但将条款分类路由到一个精炼的、遵循规则的模型,该模型在结构和速度方面表现出色。每个步骤都有正确的大脑支持。

经验法则: 对模糊性和判断类型问题使用推理模型。对精确性和可重复性任务使用非推理模型。

专业模型和多模态能力

智能体越来越需要做更多的事情,而不仅仅是文本生成。您可能需要:

  • • 视觉模型来分析文档、图表或UI截图
  • • 语音模型来转录和理解音频
  • • 代码模型来生成或修复脚本
  • • 数学或逻辑模型来可靠地执行计算

这些专业模型通常比通用LLM更适合任务。例如,不要要求GPT-4解释PDF表格——使用像GPT-4V或具有文档解析功能的Gemini这样的视觉模型。不要依赖聊天模型进行数学计算——路由到计算器或符号数学模型。

如果您的智能体需要融合文本、图像、音频和视频——多模态模型不再是锦上添花。它们是基础。

调整大脑:何时以及如何

有时,现成的产品是不够的。您需要您的模型遵循特定的规则,以您的品牌声音说话,或解释领域特定数据,如实验室报告或法律条款。

这就是微调的用武之地——但完全微调是昂贵的且通常容易过度微调

相反,大多数团队现在使用PEFT——参数高效微调

通过LoRA(低秩适应)、QLoRA或适配器等技术,您可以使用一小部分额外参数来自定义基础模型的行为。这种方法具有以下优点:

  • • 训练更快
  • • 便宜得多(想想几百美元而不是几百万美元)
  • • 更适应利基或不断变化的用例

我们使用PEFT构建了以下智能体:

  • • 以高度一致性解释监管语言
  • • 从嘈杂的医疗保健笔记中提取见解
  • • 撰写与公司语气完美匹配的外发电子邮件

这不仅仅是关于准确性——它关乎一致性、可靠性和控制

帕累托前沿:明智的权衡很重要

现实是:您总是在平衡性能与成本、延迟和基础设施复杂性。您正在帕累托前沿进行权衡。

有时,最明智的选择不是“最好”的模型——而是最适合工作流这一部分的模型。

在一个案例中,我们通过Claude Opus进行推理——但使用一个小型开源模型进行发票分类。前者提供判断,后者提供速度。这种平衡将延迟降低了40%,成本降低了60%,质量没有损失。

聪明的团队设计智能体根据复杂性路由任务——几乎像分诊:

  • "简单任务?使用小型本地模型。"
  • "困难的规划步骤?调用大模型。"
  • "需要图像分析?切换到多模态模型。"

这不关乎更大的模型——而是关乎更聪明的系统设计

洞察:最好的智能体不是由最好的模型驱动的。它是由最好的模型系统驱动的,像一个团队一样协同工作。

尽早评估,经常评估

模型选择不应基于炒作或基准。你会惊讶地发现,在纸上"更聪明"的模型在实践中表现更差——仅仅是因为它在格式化方面挣扎,过度思考任务,或者为了微小的改进而花费10倍的成本。在你的工作流上下文中测试它们。

我们评估:

  • 真实用例的输出质量
  • 指令遵循可靠性
  • 格式稳定性(对工具链接很重要)
  • 不同流量下的速度
  • 规模下的成本可预测性
  • 错误模式和幻觉频率

有时,一个在孤立情况下出色的模型在链中崩溃。你只能通过结构化的、特定于上下文的评估来发现这一点——理想情况下在智能体级别和子任务级别。

专业提示:为工作流的每个步骤运行评估,而不仅仅是最终结果。真正的模型性能不匹配往往隐藏在那里。

你选择的大脑决定了你的智能体如何思考、反应和扩展。但更重要的是,你使用多少大脑以及何时使用决定了它在现实世界中的表现。

AI模型工程不是追逐排行榜上最大的模型。它是构建一个智能集成,为你的特定智能体工作流提供智能、响应和效率。

在AI选项无限的世界中,这门学科使你的智能体保持专注、接地,并准备好在生产环境中运行——而不仅仅是在演示中。

因为真正的艺术不是构建一个能思考的智能体。它是构建一个思考得恰到好处恰逢其时恰如你所愿的智能体。

洞察这不是关于人工智能。这是关于智能架构。

  1. 智能体运维工程:像运行关键企业应用一样运行智能体

这是每个AI构建者艰难学到的真理:

在实验室中构建一个工作的智能体很容易。

构建一个在生产环境中工作的智能体,在负载下,有真实用户、真实工具、真实截止日期——并且不会崩溃、产生幻觉或失控——是完全不同的游戏。

智能体运维工程就是那个游戏。它是使AI智能体可观察、可测试、可治理、高性能和安全的学科——在规模上

这是智能体开发从提示调整转向平台思维的地方。如果上下文工程为大脑提供信息,工作流工程构建其逻辑,那么智能体运维为那个大脑提供身体、神经系统和安全带

什么是智能体运维?

智能体运维是智能体系统的新兴操作层——将其视为MLOps遇见DevOps,为自主智能体调整。

它包括:

  • 评估(evals):衡量质量、行为和正确性
  • 可观察性:记录每个决策、工具调用和模型响应
  • 护栏:执行政策、合规和道德边界
  • 安全性:防止注入攻击、滥用或数据泄露
  • 优化:在运行时提高延迟、吞吐量和成本效益
  • 生命周期管理:版本控制、回滚、CI/CD和智能体漂移监控

如果你正在构建一个智能体代表你行动、做出决策或接触面向客户系统的系统——智能体运维不是可选的。它是你的安全网、测试工具和紧急停止按钮。

评估:认真测试

智能体运维的第一原则是:永远不要部署一个你没有在模拟中彻底测试的智能体。

与传统软件不同,智能体是概率性操作的。相同输入,不同输出。这意味着我们需要新的测试技术:

  • 场景评估:模拟真实世界任务,并在数十或数百种变体中判断智能体性能
  • 回归评估:检测新更新是否降低行为(是的,它们会——经常出乎意料)
  • 行为评估:检查道德、法律或品牌对齐违规
  • 工具集成评估:确保智能体能一致地解析、调用和恢复工具输出

在我们为处理医疗保险查询构建的一个智能体中,我们在发布前创建了一个包含200个边缘案例评估的测试套件。这就是捕获那些会导致严重下游错误的幻觉ICD代码的原因。

洞察:如果你不在生产前对智能体进行压力测试,你的用户正在为你做这件事。

护栏:不要只是信任——要验证

即使是最好的智能体也会犯错。问题是:这些错误被允许有多灾难性?

护栏定义了智能体行为的外部边界。它们可以是:

  • 硬约束:"未经法律审查,从不批准合同。"
  • 软激励:惩罚破坏格式或超过长度的输出
  • 内容过滤器:阻止有毒、有偏见或不安全的响应
  • 工具访问限制:防止API滥用(例如,不对生产数据库执行DELETE命令)
  • 道德边界:禁止违反组织或规范的行为

将它们视为数字保险杠,将智能体保持在车道内。理想情况下,它们在多个层次实施:

  • 提示级保障措施
  • 输出验证器
  • 工具包装器
  • 执行沙盒

我们合作的一个金融智能体有一个回滚机制:任何超过一定美元阈值的行动都会触发人在循环确认——即使智能体很有信心。

洞察:好的智能体运维假设智能体是会犯错的。伟大的智能体运维从一开始就为此设计。

可观察性:黑盒必须变得透明

智能体看到了什么?它决定了什么?为什么它调用那个工具?返回了什么输出?它被正确使用了吗?

这些不是哲学问题。它们是生产调试必需品

可观察性意味着:

  • 捕获每个智能体交互的完整跟踪
  • 记录每个LLM提示、响应、工具调用和工具结果
  • 标记异常或错误(例如,工具滥用、幻觉、长延迟)
  • 启用会话重放,以便开发人员和产品负责人可以诊断出了什么问题(或正确)

我们使用像LangSmith这样的开源工具和自定义跟踪层构建显示以下内容的仪表板:

  • 随时间推移的令牌使用情况
  • 每个工作流步骤的失败率
  • 工作流中最常见的"死胡同"
  • 哪些提示产生不良输出

洞察:你无法修复你看不到的东西。在智能体系统中,可观察性是你的超能力。

安全性和信任:智能体是具有攻击面的

让我们现实一点。智能体是诱人的攻击向量。

它们接受用户输入,运行动态代码,调用外部工具,并以自主性行动。那是黑客的游乐场。

智能体运维必须包括安全措施,如:

  • 提示注入预防:转义用户输入,将指令与上下文分开
  • 速率限制:防止工具滥用或递归循环
  • 审计跟踪:记录每个决策和工具调用以供合规
  • 访问控制:限制智能体可以到达的工具或系统
  • 沙盒:当行动高风险时,在隔离环境中运行智能体

在一个案例中,提示注入让用户覆盖了智能体的语调并发送了一封冒犯性电子邮件。之后,我们强化了每个提示,添加了清理,并引入了两层审核系统。

洞察:当你的智能体能够行动时,你就建造了一个拥有大楼钥匙的机器人。像对待机器人一样保护它。

优化和运行时性能

自主智能体不仅生成文本。它们运行长期过程,调用工具,链接推理步骤——这使得运行时性能成为一个严肃的工程挑战。

智能体运维包括:

  • 预取

    模型和在已知步骤的上下文,以减少冷启动

  • 提示缓存

    以避免重新计算相同或相似的输出

  • 流式传输

    输出给用户,而不是等待完整响应

  • 延迟感知路由

    (例如,对简单查询使用小型模型)

  • 跨推理端点的

    负载均衡

  • 批量处理

    请求,当并行工作流允许时

一个企业客户仅通过缓存40%会话中使用的常见推理步骤,就将平均智能体延迟缩短了2秒。乘以数百万次调用,你就节省了时间和金钱。

CI/CD、版本控制和智能体漂移

智能体系统不是静态的。它们会演化——新工具、新工作流、新模型。如果没有强大的操作生命周期,这种演化会破坏事物。

智能体运维应该支持:

  • 版本控制:提示、工具、工作流和模型配置
  • 金丝雀部署:在小流量片上测试新智能体版本
  • 回滚:如果指标下降,立即恢复到先前版本
  • A/B测试:在实时环境中比较不同策略
  • 漂移检测:发现智能体随时间开始偏离预期行为

洞察:你不会在没有CI/CD管道的情况下部署微服务。不要对智能体有任何不同。

如果上下文工程为你的智能体成功做好准备,工作流工程向它展示如何行动——智能体运维确保它继续按照预期的方式行动

它不华丽,不炫目。但它将演示智能体与生产系统区分开来。它给你的利益相关者信心,让AI智能体与他们的客户、工具或数据互动而无需恐惧。

智能体运维工程是我们如何为自主式AI带来安全、稳定和可扩展的技术保障。

因为构建一个一次工作的智能体很容易。构建一个持续工作、安全地为数千用户服务的智能体?这才是真正的工程。

  1. 智能体用户体验工程:为信任、透明度和团队合作而设计

假设你已经构建了世界上最先进的AI智能体。它推理完美,像专业人士一样编排工具,从不越界,并在精心调优的堆栈上运行。但然后你发布它——用户不信任它。他们犹豫。他们推翻它的建议。或者更糟,他们完全放弃它。

这不是技术失败。这是用户体验失败

智能体用户体验工程是设计用户如何感知、控制、与自主AI系统协作并从中受益的实践。

因为无论你的智能体在引擎盖下有多聪明,如果用户无法理解它在做什么、为什么这样做,或者如何指导它——它只是一个带有闪烁光标的黑盒子。

为什么智能体用户体验不同

传统软件是反应式的。智能体软件是主动的

这改变了一切。智能体可以发起行动、做出决策,甚至在用户询问之前就推荐下一步。

所以你的用户体验现在必须回答一组新问题:

  • 智能体现在在做什么?
  • 为什么它采取那个行动?
  • 它下一步会做什么——我能改变吗?
  • 我能信任这个决定吗?
  • 我能撤销或引导它吗?

洞察:心智模型从"工具"转变为"队友"。你的用户体验需要反映这一点。

智能体用户体验的关键原则

我们来分解真实世界系统中出色的智能体用户体验是什么样的。

1. 透明度胜于魔法

用户永远不应该对智能体的输出感到惊讶——或者对其如何得出结论感到困惑。

差的案例:

“这是您的提案。完成了。”

好的案例:

“根据您过去的三笔交易,我起草了这份提案。我重用了Acme合同中的条款,并标记了第3节中的定价缺口。”

依靠透明度建立信任。并创建学习循环,帮助用户理解并最终更多地授权

用户体验理念:

  • • 逐步推理跟踪(“我是这样得出结论的”)
  • • 工具使用日志(“使用‘SearchKB’查找条款历史记录”)
  • • “为什么提出此建议?”工具提示
  • • 置信度指标(低/中/高)

2. 渐进式授权

自主性是一个光谱——而不是一个开关。从小处着手。赢得信任。随着时间的推移进行扩展。

出色的智能体用户体验为用户提供:

  • • 控制模式:“仅推荐”、“行动前确认”、“例行任务自主执行”
  • • 干预点:可编辑的草稿、可选的批准、重试按钮
  • • 可定制性:语气、风险级别或工作流选择的偏好

洞察:将智能体视为新员工。您不会在第一天就将王国的钥匙交给他们。

在我们为供应商电子邮件自动化构建的一个智能体中,用户最初处于“仅建议”模式。在三周的一致、符合品牌形象的输出后,大多数用户在低风险场景中切换到“自动发送”。

3. 可解释性而非信息过载

智能体应该解释自己——但不要说教。

在两者之间取得适当平衡意味着呈现:

  • • 推理(“此价格比历史平均水平高出22%”)
  • • 来源(“基于过去12个月的发票数据”)
  • • 行动理由(“我标记它是因为您的政策上限为15%的差异”)

但要以分层的方式,而不是倾倒式。

用户体验模式:渐进式披露

  • • 从摘要开始
  • • 点击展开以获取完整的推理、来源或工具输出

4. 反馈循环:向用户学习

您的智能体并不完美。没关系——只要它能学习。

智能体用户体验应该让用户轻松地:

  • • 纠正错误
  • • 重新措辞或重试请求
  • • 评价输出(“有帮助”/“没抓住重点”)
  • • 随着时间的推移训练偏好(“我喜欢项目符号列表”或“总是抄送财务部”)

在幕后,这些输入应该反馈到智能体的记忆、路由或微调循环中。

洞察:每次交互都是一个训练数据点——如果您为此设计的话。

5. 个性、语气和品牌契合度

您的智能体代表您的公司。它的说话方式、反应方式和道歉方式都很重要。

法律助理智能体可能正式、精确和谨慎。创意写作智能体可能机智、协作和非正式。

良好的智能体用户体验包括:

  • • 个性校准(“以自信、友好的语气写作”)
  • • 跨渠道(聊天、电子邮件、语音)的语音一致性
  • • 人设提示(“你好,我是Ava——您的合同副驾驶”)
  • • 视觉识别(配色方案、动画、智能体头像)

但请注意:不要过度拟人化。它不是您的朋友。它是您的助手。

使智能体系统大放异彩的用户体验功能

以下是我们实践中看到有效的功能:

  • • 实时活动源

“正在搜索供应商数据库…” → “找到3个匹配项” → “正在生成建议…”

  • • 可编辑草稿

智能体创建内容,用户编辑或批准

建立信任并加速工作流

  • • 撤销和修订历史

当智能体采取实际行动(电子邮件、批准、数据输入)时尤为重要

  • • 多模态用户界面

聊天 + 按钮 + 表格 + 文档

让用户通过不同的模式进行交互,而不仅仅是自然语言

  • • 基于角色的界面

为财务、法务、IT量身定制用户体验——每个人都看到他们关心的内容

不同的授权设置、指标、警报和批准

智能体用户体验工程是关于设计一种关系——而不仅仅是一个界面。

它是您将AI从一个不可预测的助手转变为一个值得信赖的队友的方式。

做得好,用户不仅会容忍智能体——他们会依赖它、引导它,甚至拥护它。做得不好,即使是最智能的智能体也会变成搁置的软件。

归根结底,用户不会问“这个AI有多强大?”

他们会问:

“我知道它在做什么吗?”

“我能信任它吗?”

“它会让我更快,而不是更慢吗?”

如果答案是肯定的,那么您就成功地实现了智能体用户体验。

最终思考:从提示到生产——智能体式AI工程的崛起

让我们回顾一下。

我们刚刚探讨了将脆弱的智能体演示转化为健壮、企业级系统的五个基本学科:

  • • 上下文工程——在正确的时间向智能体提供正确的信息
  • • 智能体式工作流工程——逐步构建智能体的推理、规划和行动方式
  • • AI模型工程——为正确的任务选择和编排正确的大脑
  • • 智能体运维工程——使智能体可观察、安全、可测试和可扩展
  • • 智能体用户体验工程——设计建立信任、透明度和团队合作的界面

这些共同构成了一个新兴且快速发展的领域:智能体式AI工程

这不是提示技巧。这不是一个周末项目。它是一门多学科工程学科,就像早期的软件工程一样。

它有架构。

它有设计模式。

它需要工程严谨性

为什么系统设计比以往任何时候都更重要

是的,我们现在拥有出色的代码生成智能体。

是的,LLM可以编写工作流、链接工具并生成样板代码。

但有一个残酷的事实:代码智能体减少了实现工作量——但它们不能取代系统设计。

事实上,随着实现速度的加快,糟糕设计的成本会增加

我们现在比以往任何时候都更需要智能体式AI架构师——能够:

  • • 设计安全、可扩展、模块化的智能体工作流
  • • 平衡推理与非推理步骤
  • • 为每个时刻选择正确的模型
  • • 将信任融入每个用户交互
  • • 定义故障模式、升级路径和批准逻辑
  • • 预测突发行为,即使逻辑并非完全确定性

智能体式AI并非即插即用。它是一种新型系统——它以高度自主的方式与用户、工具、API和业务逻辑进行交互。

在这个阶段——当最佳实践仍在形成,工具仍在成熟时——强大的设计至关重要

洞察:在不成熟的领域,系统设计是您实现可靠性、安全性与速度的最强杠杆。

从实验到企业级

我们正在进入AI的新阶段。

不仅仅是更智能的模型。不仅仅是更快的芯片。

而是能够在关键业务工作流中思考、规划、行动和进化的真实自主系统

而成功的系统将不仅仅是拥有最大模型或最佳演示的系统。

它们将是基于以下原则构建的系统:

  • • 深思熟虑的架构
  • • 清晰的操作边界
  • • 自适应用户体验
  • • 透明的推理
  • • 最重要的是——设计纪律

这就是智能体式AI工程的承诺——也是其责任。

接下来会发生什么

我们需要的不仅仅是编码开发人员。

我们需要的不仅仅是提示工程师。

我们需要新一代的智能体系统设计师——理解如何编排智能的架构师。

因为如果我们做对了,我们可以构建这样的智能体:

  • • 帮助医生更快地诊断
  • • 帮助团队管理混乱
  • • 帮助公司负责任地扩展
  • • 帮助人们以更少的摩擦和更多的流畅性完成最好的工作

所以,如果您是创始人、工程师、投资者或领导者——请投入其中。

这就是我们从潜力走向绩效的方式。

实验走向真实产品

AI炒作走向真正有帮助的AI

智能体式AI工程是下一个伟大的前沿领域。

让我们带着意图去构建它吧!