AI 智能体导论

151 阅读33分钟

Andrew Ng 是人工智能领域的标志性人物,兼具学术权威与创业家的罕见特质。

在上世纪90年代,当大多数科技界人士热衷于互联网(dot-com)浪潮时,Ng 却更看好人工智能的发展潜力。他在贝尔实验室期间致力于模型评估、特征选择优化和强化学习领域的研究。

随后,他在麻省理工学院(MIT)获得了电子工程与计算机科学硕士学位,又在加州大学伯克利分校获得计算机科学博士学位,博士论文主题便是强化学习。

之后,Ng 成为斯坦福大学的教授。他开设的课程 CS229(机器学习)成为了该校最受学生欢迎的课程之一。同时,他也是最早意识到图形处理单元(GPU)对于人工智能系统巨大价值的学者之一。

此后,Ng 将他的人工智能技能应用于商业领域。他曾担任百度的首席科学家,也帮助创建了谷歌大脑(Google Brain)。

2011年,他领导开发了斯坦福大学的“大规模在线开放课程”(MOOC)平台,该平台很快吸引了大量学生参与。

Ng 利用这些经验,联合创办了 Coursera,这一平台现已发展为全球领先的在线学习平台之一。该公司于2021年上市,市值近60亿美元。目前,Coursera 拥有大约1.48亿注册用户,与超过325所大学和企业建立了合作伙伴关系。

此后,Ng 又陆续创立了 DeepLearning.AI 和 Landing AI 等公司。他甚至还设立了自己的风险投资基金。

毫无疑问,Ng 对趋势有着敏锐的直觉,尤其是在人工智能领域。他是一位你绝不应低估的人。

那么,他接下来关注的是什么呢?在他眼里,最大的机会在哪里?

答案是人工智能智能体(AI agents)。他曾指出,AI智能体是一个“令人兴奋的趋势”,也是每个人“应该重点关注”的领域。他还表示:

“通用人工智能(AGI)更像是一段旅程而非一个终点。但我认为……智能体工作流(agent workflows)可以帮助我们在这漫长旅程上迈出一小步。”

Ng 并不是个例。许多科技界极具影响力的人士都对 AI 智能体充满乐观。

以比尔·盖茨为例,他在自己的博客中写道:

“在计算机行业中,我们经常谈论平台——也就是应用和服务所构建的底层技术。安卓(Android)、iOS和Windows都是平台。而AI智能体,将成为下一个平台。”

盖茨在他的文章中还详细描述了,自他在上世纪70年代创立微软以来,软件行业几乎没有发生根本变化,现有的应用大多还很“笨拙”。

但AI智能体将彻底改变这一现状。其关键在于,系统将更深入地了解你的“工作、个人生活、兴趣和人际关系”。换句话说,软件将变得更智能,更实用,更高效。

盖茨举了这样一个例子:

“想象一下你要计划一次旅行。一款旅游机器人将为你找到符合预算的酒店。一个智能体知道你喜欢在哪个季节旅行,并且根据它对你的了解——比如你总喜欢探索新的目的地,还是喜欢回到熟悉的地方——它会为你推荐目的地。当你进一步询问时,它会根据你的兴趣和冒险倾向推荐活动,并预订你可能会喜欢的餐厅。如果今天你想要这种深度的个性化服务,你可能需要花钱雇一个旅行顾问,还要花费大量时间告诉他你想要什么。”

此外,作为全球领先的咨询公司之一,麦肯锡也给出了类似的见解:

“智能体的巨大价值在于,它们能够自动化处理大量复杂、多变的场景,而这些场景过去很难以低成本或高效率的方式实现自动化。以一次简单的商务旅行为例,它可能涉及不同航空公司和航班的多种行程安排,以及酒店奖励计划、餐厅预订和休闲活动,这些环节目前仍需跨多个线上平台手动完成。尽管行业一直在尝试将部分环节自动化,但由于输入输出的变化太多,使得这个过程变得过于复杂、昂贵或耗时而难以自动化。”

另外值得注意的是红杉资本的合伙人 Sonya Huang,她投资了 Hugging Face、Glean 和 LangChain 等备受关注的生成式AI初创公司。她指出:

“我们的一个核心观点是,智能体将是下一波 AI 浪潮。整个行业正在从‘副驾驶’(copilot)向‘智能体’(agent)演进。”

什么是 AI 智能体?

目前,AI 智能体(AI Agents)还没有明确而统一的定义,这并不令人意外。因为 AI 智能体这一概念本身仍处于起步阶段,而且技术迭代非常迅速。正如互联网从最初的简单用途迅速发展为涵盖各种应用与服务一样,AI 智能体也可能经历类似的快速演变与多样化发展。对于开发者而言,这意味着巨大的成长空间和发展机会。

不过,我们仍然需要一个基本的定义。那么从哪里开始呢?让我们从生成式 AI 革命的先驱之一,LangChain 的联合创始人 Harrison Chase 的视角来理解这一概念。LangChain 是当前最流行的生成式 AI 开发框架之一。

以下是 Chase 对生成式 AI 智能体的定义:

在我看来,“智能体”意味着用一个大语言模型(LLM)来决定一个应用的控制流程。传统的检索增强生成(RAG)链通常事先就确定了明确的步骤:首先生成搜索查询,然后检索文档,再生成答案并返回给用户。这是一个非常固定的流程。

当我认为某个东西开始具备“智能体”特征时,意味着将 LLM 放在系统核心,让它自主决定接下来做什么。有时,它可能会去搜索,有时可能直接回应用户;也可能连续进行多个搜索,然后再回复。这种情况下,控制流是由 LLM 自主决定的。

另一种理解 AI 智能体的方式是分析其组成要素,包括反思(Reflection)工具(Tools)记忆(Memory)规划(Planning)多智能体协作(Multi-agent Collaboration)自主性(Autonomy)

下面,我们逐一深入探讨这些组成部分:

反思(Reflection)

AI 智能体的反思能力,是指系统对自身认知过程进行检查并加以调整的能力。这种自我意识使得 AI 能够审视自身决策、学习模式和解决问题的方法。通过反思,AI 可以分解复杂的挑战,从经验中提炼洞见,并对其结论提供更清晰的解释。

例如,近期的 Reflexion 框架研究显示,通过“言语化自我反思”,AI 智能体能从反馈中获取宝贵的信息,将这些反馈存储在智能体的记忆中,并用于未来尝试。这一过程是迭代优化的,即智能体评估自身行为,获取反馈,然后相应调整行为。这种方法在决策、推理和编程等任务上均表现出显著提升。

这种元认知能力大幅提升了 AI 系统的灵活性和韧性。AI 在回顾过去的表现和结果后,能够不断改进自身策略,提升自主执行能力。该过程有助于错误检测、战略演进和更高效地实现目标。例如 Reflexion 智能体在 AlfWorld 环境,以及基于搜索的问答和代码生成任务中,表现出明显提升。

工具(Tools)

生成式 AI 智能体的工具使用能力,指的是它们能够与外部工具、API 或软件交互,以增强其功能并执行复杂任务。这使 AI 系统不仅限于语言或图像生成等基础功能,还能访问最新信息、实时数据、执行计算、文件操作,以及通过多个行动串联实现工作流自动化。这种整合极大提高了 AI 的准确性,并扩展了领域知识。

具体工具使用案例包括:

  • 浏览网页获取最新信息
  • 实时执行代码
  • 数据分析与可视化
  • 日历管理与安排
  • 文件管理与操作
  • 复杂数学计算

例如,Salesforce 的 Einstein GPT 可以整合 CRM 工具,在多个业务场景中提供 AI 生成的内容。同样,亚马逊 AWS 的 Solution Architect Agent 使用自定义工具查询 AWS 文档、生成代码并创建架构图。

有时任务可能发生在动态环境中,解决方案并不明显或可能意外发生变化。比如数据源临时不可用,需要 AI 去寻找其他信息源;又或者初始的 API 请求失败,智能体需要根据错误反馈重新尝试,或寻求人为帮助。

如果没有可用的 API 呢?成功的智能体需要能够导航终端用户界面。这项任务非常复杂,AI 需要理解界面内容(例如处理 HTML 元素或分析界面截图像素),然后决定执行何种操作(如点击按钮或填写表单),并根据界面反馈持续调整策略。

记忆(Memory)

记忆能力允许 AI 智能体存储并利用过去的交互或任务中的信息,从而保持对话上下文,学习经验,并提供更加连贯和个性化的回复。

AI 智能体的记忆分为不同类型:

  • 短期记忆(Short-term Memory)
    暂时保存与当前任务相关的信息,通常存储最近的交互记录或对话片段,以便随时调用。
  • 长期记忆(Long-term Memory)
    在较长时间范围内保存信息,包括知识积累、学习经验和已建立的模式,能够影响 AI 智能体的决策与适应能力。

长期记忆的实现通常采用向量数据库(Vector Databases),可以快速高效地检索相关信息。长期记忆主要包括:

  • 情景记忆(Episodic Memory) :储存具体事件或经验,使智能体能够回忆过去并应用到新情境中。
  • 语义记忆(Semantic Memory) :储存关于世界的一般知识和事实,帮助智能体理解对象、概念、关系与程序。
  • 程序性记忆(Procedural Memory) :储存学习到的技能和过程,侧重于如何执行任务而非记忆具体事件。

最近研究表明,配备结构化记忆系统的 AI 智能体在复杂环境中表现更优。例如,JARVIS-1 智能体通过多模态记忆,在复杂开放环境中的任务规划与执行表现优异。

规划(Planning)

AI 智能体的规划能力,指的是通过大语言模型(LLM)自主确定完成更大目标所需的步骤。这使得 AI 能够将复杂目标拆分为多个可管理的任务,从而高效执行复杂项目。

例如,一个 LLM 可以指导 AI 智能体组织虚拟活动,分解为选择演讲嘉宾、安排议程和协调技术支持等小步骤。

近年来的发展,如 Reflexion 框架,将规划、自我反思和记忆相结合,使智能体可以动态调整计划,从反馈与经验中优化决策和执行能力。

此外,任务规划和工具使用(TPTU)框架强调规划与工具使用之间的协同作用。智能体可以选择一次性规划完整任务,或逐步规划每个子任务,并随时根据反馈进行调整。

在实际场景中,规划让 AI 智能体处理需要动态响应和专业知识的任务。例如,一个管理家庭花园自动化的智能体可以规划安装传感器、配置灌溉计划、监测植物健康,并与手机应用集成数据等步骤。

当然,规划也可能引入不确定性,智能体可能因生成动态计划的复杂性而偏离预期。但随着该领域的持续进步,AI 智能体规划的可靠性和精确度也会不断提升。

多智能体协作(Multi-agent Collaboration)

多智能体协作是指利用多个不同的 AI 智能体(通常基于多个大语言模型,LLM)共同合作,以实现复杂任务的能力。这种协作方式类似于人类团队的运作模式:每个智能体专注于特定的子任务,并协力实现共同目标。例如,在一次营销活动项目中,不同的 AI 智能体可能分别扮演内容创作者、市场分析师、活动策划师和绩效评估员等角色。

通过对一个或多个 LLM 分配不同的任务,你可以创造出专门化的智能体。例如,在营销活动中,负责内容创作的智能体可能会接收到如下提示:

“你是一名擅长创作吸引人营销文案的专家,请为本次活动撰写内容,重点推广我们的新产品……”

这种方法利用了 LLM 强大的生成能力,同时又将其聚焦于特定子任务,从而提高了整体表现和效率。

另一名智能体可能会负责市场分析,并接收这样的提示:

“你擅长分析市场趋势和消费者行为,请基于最新数据提供洞察,以便为营销策略提供参考。”

研究显示,多智能体系统通常表现优于单一智能体设置。例如麻省理工学院(MIT)的研究表明,多 AI 模型之间的协作互动可以显著提高推理能力和事实准确性。这些智能体通过协商式的过程,相互评估和批判彼此的输出,最终得出更加精准、全面的解决方案。

自主性(Autonomy)

AI 智能体的自主性指的是智能体能够独立做出决策并执行任务,而无需持续的人类干预。这种自主能力源自于智能体对数据的处理、经验学习以及对新情况的实时适应能力。通过先进的算法与机器学习技术,这些智能体能够评估环境、识别模式、预测结果,从而采取与其目标相一致的行动。例如,在自动驾驶汽车中,AI 智能体需要不断解读传感器数据,以便在行驶中避开障碍物,并做出安全、高效的驾驶决策。这些决策是在动态环境中即时完成的,体现了智能体的自主运行能力。

此外,AI 智能体还能通过持续学习和适应,不断提高其自主性。借助机器学习模型,智能体能够从自身经验中学习,随着时间推移持续提升表现。这种学习过程涉及分析过去的行为和结果,以改进未来的策略。例如,在客户服务应用中,AI 智能体可以通过以往的用户交互经验,学习提供更准确、更个性化的回复。

不过,通常来说,让 AI 智能体完全自主并不是一个明智的选择。更合适的方式是保持在自主性和人为控制之间寻找平衡。在许多情境下,人类监督仍然至关重要,以确保智能体的行为符合更广泛的伦理标准、安全规范及组织目标。通过在自主性和人类控制之间取得平衡,我们可以最大程度地发挥 AI 的优势,同时降低无监督决策所带来的潜在风险。

确实,构成 AI 智能体的要素非常丰富,但这并不意味着你在实际应用时必须使用全部这些组件。事实上,根据不同的使用场景,你可能只需要其中几个部分即可。

用户界面(UI)与用户体验(UX)

用户界面(UI)和用户体验(UX)是软件应用中至关重要的组成部分,它们直接影响用户的满意度、参与度与生产效率。

一个设计良好的 UI 能让软件在视觉上更具吸引力,并更直观易用,从而帮助用户更高效地完成任务。与此同时,优质的 UX 设计关注的是用户在整个使用过程中的整体感受,包括易用性、可访问性和响应速度。UI 与 UX 的协同设计能够降低新用户的学习门槛、减少操作失误,并提升软件的整体效能。

这不仅能显著提高用户满意度,还能推动更高的用户采用率与客户忠诚度。据 Forrester Research 的一项研究指出,一个设计优秀的 UI 可将网站的转化率提升多达 200%,而更好的 UX 设计甚至可带来高达 400% 的转化率增长。

随着 AI 智能体不断演进,重新思考 UI 和 UX 的设计思路也变得尤为重要,以应对大语言模型(LLMs)所带来的独特挑战。由于 LLM 并非总是精准可靠,传统的聊天界面成为早期常见的一种解决方案。这类界面能够清晰展示 AI 的操作过程,支持实时反馈,并允许用户修正 AI 的错误,或是提出进一步的问题。该模式强调交互性和透明度,确保用户始终处于主导地位。

但这种方法也存在局限:用户必须始终“在环”(human-in-the-loop),这使系统更像一个“副驾驶”(copilot),而非真正的自主代理。

为了在“自主性”与“可控性”之间取得平衡,可以通过确保 AI 行动的透明性和可追溯性来实现。例如,在智能家居场景中,记录智能体的操作日志可以方便用户回顾并在必要时进行干预或修改。

这类审阅过程也可以通过设计良好的用户界面加以简化,比如通过图形界面让用户轻松修改灯光、恒温器、安全系统等设备的计划任务。AI 可以自主完成管理,但用户仍然可以随时介入,调整设置或提供反馈,从而实现人机协同学习。

此外,AI 智能体的交互界面还可以设计得更具“主动性”,深度集成到日常设备中。用户无需每次都打开应用程序,AI 可在后台自动运行,并定期主动发出通知或建议。例如,通过智能家居控制中心或可穿戴设备,AI 可能会提醒你:“今天你的能耗高于平时,我是否需要自动调整恒温器设置以节能?”

这种主动式的设计思路,确保了 AI 智能体能够无缝融入用户的日常生活,在恰当的时机提供帮助,而无需用户频繁操作。

归根结底,为 AI 智能体重新设计 UI 和 UX,意味着要打造一种既便于使用,又具有一定自治能力的系统,同时保持必要的透明度与可靠性。这样才能让用户真正信任 AI,让其自主高效完成任务,仅在必要时人工介入,以确保结果符合预期。

开发方法的新范式

传统软件开发通常遵循一种较为确定性的(deterministic)流程,它基于结构化、顺序化的方法,分阶段构建软件应用。流程通常包括以下几个步骤:

  1. 需求分析:明确软件的功能需求与业务目标;
  2. 系统设计:制定系统架构及详细技术规格;
  3. 编码实现:程序员根据设计文档编写代码;
  4. 测试:系统性地发现并修复 Bug;
  5. 部署上线:将系统推入生产环境;
  6. 运维与迭代:上线后持续修复问题与更新功能。

传统流程的“确定性”在于其高可预测性与可复用性——每个阶段都有明确的目标与产出,非常适合管理大型团队与复杂项目。

但生成式 AI 智能体的开发则大不相同,它更依赖概率性输出,而非固定的逻辑。这对开发者而言是一次显著的心智转变。

我们来看一个典型的工作流程:

  • 第一步是识别使用场景:这并不容易,因为某些应用场景对输出稳定性要求较高,可能并不适合 LLM。
  • 第二步是选择模型:选择哪个模型、用几个模型都需要综合考虑精度、更新频率、响应速度与授权许可等。
  • 第三是成本控制:使用 API 还是本地部署?若本地部署,可能需要昂贵的 GPU;而调用 API 又涉及高额调用费用。

此外,生成式智能体的“流程复杂度”也必须被重点评估。由于 LLM 本质上是概率驱动的,其输出结果具有不确定性。为降低风险,通常需要设置“防护栏”(guardrails)机制,或加入“人在环”(human-in-the-loop)方案,以确保安全性与准确率。

测试阶段尤其棘手,因为 LLM 输出是非确定性的,无法像传统软件那样做“2=2”的单元测试。这种不确定性的世界需要新的测试范式。

正如红杉资本合伙人 Sonya Huang 与 Pat Grady 所指出:

“现有的监控工具并不能提供足够深度的可观测性,帮助你追踪 LLM 调用中出错的环节。测试也与传统软件完全不同——你不能仅用简单的‘断言测试’来验证正确性。在这个概率驱动的世界里,测试必须更具层次感,比如使用配对对比(pairwise comparisons,如 Langsmith、LMSYS)来追踪模型的性能变化。这一切都需要一套全新的开发工具。”1

为了进一步提升准确率,往往还需要引入带有专有信息的数据库,比如通过**微调(fine-tuning)RAG(检索增强生成)**来提高模型表现。这又引入了新的复杂度层级。

可以说,开发生成式 AI 智能体的过程,处处充满动态性和适应性,其工作方式也与传统软件开发迥然不同。

AI 智能体的多种形态

AI 智能体主要有两种基本形式:具身智能体(embodied agents)和软件智能体(software agents)。这两类智能体分别服务于不同的目标,运行在不同的环境中,并利用人工智能的独特能力来解决特定问题与挑战。

具身智能体是指那些能够与物理世界或三维虚拟环境互动的 AI 系统。它们广泛应用于机器人领域,可以执行如流水线作业、仓储管理、自动驾驶等任务。在电子游戏中,具身智能体常常扮演 NPC(非玩家角色),为玩家营造更沉浸、更真实的游戏体验。开发这类智能体需要复杂的算法,支持其在动态环境中的感知、决策与执行行为。这些智能体通常依赖传感器、摄像头及其他输入设备,实时采集环境数据,处理后做出合理反应。

软件智能体则运行于数字环境中,负责处理如办公事务、工作流与数据管理等任务。这类智能体可以自动化重复性工作,管理电子邮件、安排会议日程、推动复杂的业务流程。软件智能体通常设计为智能助手,理解用户指令并加以执行,从而提升工作效率并简化操作流程。

开发这两类智能体所需的技术路线和方法论各不相同。具身智能体需在真实或模拟环境中进行大量训练,才能胜任现实世界中的物理任务。其训练方法常包括强化学习(reinforcement learning),即通过不断试错来优化行为策略。相比之下,软件智能体则更多依赖大语言模型(LLM),通过大规模数据训练,使其能够理解并生成类人自然语言响应。

本书将主要聚焦于软件智能体的构建与应用。

简要历史回顾

AI 智能体的概念可以追溯到人工智能发展的早期阶段。早在 1950 年代,就有程序试图模拟人类的智能行为。例如,Allen Newell 和 Herbert A. Simon 在 1955 年开发的「逻辑理论家(Logic Theorist)」是最早的 AI 程序之一,能够模仿人类解决问题的方式,证明《数学原理(Principia Mathematica)》中的定理。该系统通过自动推理与启发式搜索,展示了机器执行智能任务的潜力。

紧接着,他们于 1957 年推出了「通用问题求解器(General Problem Solver,简称 GPS)」,这是一种更通用的系统,能够将一般策略应用于多种问题。GPS 引入了手段-目的分析(means-end analysis)和分层求解策略,对 AI 和认知心理学的发展都产生了深远影响。这些早期成果证明了机器能够模拟人类的推理过程,也为后续的 AI 研究奠定了基础。

然而,生成式 AI 智能体是近年来才取得突破的新发展。真正的拐点发生在 2022 年 11 月 OpenAI 推出 ChatGPT,它迅速成为全球增长最快的 Web 应用之一。

此后,OpenAI 又推出了更强大的 GPT-4o 模型,使生成式 AI 在文本生成、逻辑推理与内容创作方面有了显著提升,推动了 AI 在客户服务、软件开发等领域的应用落地。

在推动生成式 AI 智能体发展方面,LangChain 起到了关键作用。自 2023 年中期起,它提供了一整套框架,帮助开发者将大语言模型与各种数据源和工具集成,支持智能体的规划、执行与适应能力。

与此同时,其他项目如 BabyAGIAutoGPT 也相继涌现,并在 AI 社区中引发热议。BabyAGI 由 Yohei Nakajima 创建,AutoGPT 则由 Toran Bruce Richards 开发,它们尝试借助 GPT-4 等 LLM 实现 AI 的高度自动化,仅需极少人工介入。然而,早期实践也暴露出许多局限性,例如系统容易陷入死循环、任务执行不连贯等问题。

但这些问题并非失败,而是创新过程中常见的“试错阶段”。BabyAGI 和 AutoGPT 的经验为后来的系统改进提供了宝贵的教训和启示,推动了更稳定、更可靠的 AI 智能体的诞生。

目前,诸如 LangGraphAutoGenCrewAI 等新平台正引领这一演化进程:

  • LangGraph 提供了一套构建多智能体系统的状态管理框架,适用于处理复杂工作流,提升智能体的可靠性与协作能力;
  • AutoGen 强化了任务自动化与内容生成的能力,适应性更强,适合企业多样化场景;
  • CrewAI 聚焦多智能体协作,让多个 AI 智能体协同处理复杂项目,从而优化资源利用率并提升整体性能。

这些平台多数为开源项目,代表着生成式 AI 智能体从早期探索迈入成熟落地的新阶段。

与此同时,企业级专有系统也在迅速发展,尤其是在安全性、可扩展性与系统集成方面表现突出。微软、谷歌等科技巨头纷纷将先进的 AI 能力集成到其企业解决方案中,帮助用户自动化常规任务、提升办公效率,并在各类业务场景中提供可执行洞察。

总的来说,尽管我们仍处于 AI 智能体发展的早期阶段,但从技术演进、产品生态到产业落地,创新与投资的步伐始终迅猛,正在不断重塑未来的软件开发和业务运营方式。

大语言模型(LLMs)、Copilot 助手与机器人流程自动化(RPA)

生成式 AI 智能体与通用大语言模型(如 ChatGPT、Claude、Gemini)在多个关键方面存在显著差异。虽然 LLMs 擅长根据提示生成文本,并可通过联网搜索或 API 获取额外信息,但它们通常不具备执行复杂动作或任务规划的能力。这些模型主要为对话交互而设计,缺乏生成式 AI 智能体在某些专业领域中所需的特化功能与领域知识。尽管 LLMs 正在逐步集成更多“智能体化”特征,但它们的核心功能仍聚焦于信息提供与语言交流,而非任务执行或决策制定。

那么,Copilot 助手又是什么?它们则更加专注于特定任务和应用场景。这类智能体面向特定领域(如市场营销、法律、人力资源等)进行定制开发。例如,一个营销 Copilot 可以帮助撰写广告文案,或者分析广告投放数据表现。此类助手不仅能生成文本,还能从邮箱、数据库等多个信息源中检索和整合相关数据,从而提升输出的实用性。用户可以与之交互,接收建议内容,并选择采纳、修改或拒绝,从而加快工作流程,在专业场景中提高效率。

机器人流程自动化(RPA) 则属于完全不同的类别。RPA 专注于自动化那些重复性强、基于规则的传统人工任务。其工作方式是依据预定义的规则,在结构化数据基础上模拟人类的点击操作、表单录入等行为。RPA 本身并不具备人工智能决策能力,但可以与 AI 智能体结合,从而扩展其认知层面的功能,比如自然语言理解或模式识别。这种融合让 RPA 不再局限于“规则+动作”的基础自动化,而能处理更复杂的任务。

不过,未来的趋势很可能是逐步向 AI 智能体集中。最终,LLMs、Copilot 和 RPA 之间的界限可能会逐渐模糊,趋于融合。

💡 补充说明:目前全球软件即服务(SaaS)市场估值约为 2611.5 亿美元。
然而,AI 智能体正在重塑这一领域的商业逻辑。
传统 SaaS 模型多采用“按席位/用户计费”的订阅方式,但若 AI 智能体能够承担某些角色的大部分任务,且人类参与度极低,那再按照用户数量计费就显得不合理了。
未来更有可能采用“结果导向的定价模式”,即依据智能体所带来的生产力提升、成本节约和决策优化效果来计费。

应用场景举例

IBM 的应用人工智能研究员 Sandi Besen 表示:

“我们专注于始终比行业前沿领先 6 个月,持续实验各类新兴 AI 技术,并探索其在企业级场景中的落地方式。过去 6 个月,我们的研究重点已完全转向 AI 智能体。”

她指出,目前的行业趋势已从“Copilot 辅助”向“深度嵌入企业运营流程”的 AI 智能体演进,这带来了大量全新应用场景。

她分享了客户在不同行业中关注的一些典型用例:

  • 航空公司中,AI 智能体帮助在航班取消时为乘客自动重新预订机票;
  • 政策研究中,智能体可识别新政策中与现行政策相矛盾的条款;
  • 文档自动化场景中,智能体可以生成长篇文档并进行内容验证与事实核查;
  • 研究辅助中,智能体能聚合多个数据来源,进行深度信息提取与任务支持——这是传统人工在短时间内难以完成的“穷尽式搜索”。

Sierra:企业级客户体验的 AI 智能体平台

Bret Taylor 拥有令人瞩目的科技行业履历。他早年参与创建了 Google 地图,之后投身创业,联合创办了社交聚合平台 FriendFeed,该公司后被 Facebook 收购。FriendFeed 上的“点赞”功能被整合进 Facebook,而 Taylor 也最终成为 Facebook 的首席技术官(CTO)。

2012 年,Taylor 离开 Facebook 创办了 Quip——一个旨在挑战 Google Docs 的在线协作工具,后被 Salesforce 高价收购。他也因此一路晋升为 Salesforce 的联席 CEO。

在这一系列经历中,Taylor 逐渐意识到 AI 的巨大潜力。为抓住这一趋势,他与前 Google VR 业务负责人 Clay Bavor 联合创办了 Sierra

Sierra 专注于打造面向企业客户的 AI 智能体,提升客户体验。该平台强调安全性、合规性和隐私保护,并提供质量审核和问责机制。其客户包括 Weight Watchers、Sonos 和 OluKai 等知名品牌。

Taylor 表示:“我们最大的机会,在于让每一家公司——无论技术能力强弱——都能成功部署 AI。”

Sierra 的 AI 智能体可无缝集成到企业现有系统中,利用公司内部数据做出行动建议,所有操作都需经过正式审批。智能体的对话能力足够复杂,能以富有同理心的方式与客户交流。

技术上,Sierra 采用多模型架构,有时会同时使用多达 7 个模型,包括一个充当“监督员”的模型,用以监控和保障输出质量。

值得注意的是,Sierra 采用了创新的定价模式:按“结果付费” ,即客户只在问题被解决时才需付费,而不是传统的订阅或按调用量计费。

截至目前,Sierra 已获得由 Sequoia 和 Benchmark 领投的 1.1 亿美元融资,显示出资本市场对其愿景与能力的强烈信心。[^18]

Enso:面向中小企业的“隐形 AI”助手

Mickey Haslavsky 从小目睹父母经营小企业的艰难,尤其是在引入新技术方面的障碍。正是这些经历促使他创办了 Enso ——一家面向中小企业(SMBs)的 AI 智能体平台。

Haslavsky 表示:

“我意识到,问题并不只是代际差异,而是小企业常常被日常运营压得喘不过气,根本无暇也无力去采用新技术。”[^19]

Enso 的 AI 智能体无需技术背景即可使用,设计上强调“隐形操作”,即后台自动完成大部分任务,用户只需进行审批或微调即可。其核心技术基于强大的 API 集成,结合大语言模型(LLMs)与机器人流程自动化(RPA),可适配多个行业,包括医疗、金融服务、美容等。

例如,Enso 的智能体可以自动生成播客:

  • 使用 AI 工具检索热点话题
  • 由 LLM 撰写并优化脚本
  • 利用语音合成工具录制配音
  • 自动生成开场和结尾音乐
  • 使用视频编辑工具合成最终内容

Enso 的服务价格区间为 29 至 79 美元/月,具备明显的性价比优势。

2024 年 7 月,Enso 宣布完成 600 万美元种子轮融资,由 NFX 领投,天使投资人包括 Google Research AI 负责人 Yossi Matias 及前红杉资本合伙人 Shmil Levy。

Asana:将智能体嵌入工作图谱

Asana 是一个用于团队任务管理的 Web 和移动应用,由 Facebook 联合创始人 Dustin Moskovitz 与前员工 Justin Rosenstein 于 2008 年创建。

Asana 推出了名为 AI Teammates(AI 队友) 的智能体系统,强调“人类在环(human-in-the-loop)”的重要性。[^21]

AI Teammates 能够支持企业为自身工作流程定制专属智能体。这点尤为关键,因为传统的工作流程工具往往非常僵化,一旦流程发生微小变化,系统便可能崩溃。例如,当工单信息不完整时,AI 队友可以自动将其退回,提示用户补充信息,还可借助生成式 AI 辅助员工完善表单内容,再自动分配给合适的负责人处理。

Asana 的核心优势之一是其庞大的数据资源——其“工作图谱(Work Graph)”追踪着 10 万多家客户的协作关系网络。
AI Teammates 不仅知道“要做什么”,还知道“谁在做、与谁协作”,从而大大提升了任务处理的精准度和上下文理解能力。

未来的飞轮效应:AI 智能体的加速跃迁

Box 联合创始人兼 CEO Aaron Levie 曾总结 AI 智能体发展背后的“飞轮效应”: “未来 AI 智能体的飞跃将由多个因素协同推动:GPU 的性能与价格、模型的效率与智能、AI 基础设施的演进等。我们今天看到的智能体,只是冰山一角。很多现在看起来难以实现或成本高昂的事情,也许很快就会变成现实。”[^22]

结语

AI 智能体的演进,标志着人工智能发展史上的一个重要里程碑。它所展现出的快速进步与广泛应用前景,正在重新塑造整个技术格局,也激发了业内领袖们的强烈信心与期待。包括 Andrew Ng 和比尔·盖茨在内的多位科技愿景者,纷纷指出 AI 智能体所蕴含的颠覆性潜力,并描绘了一个“AI 无处不在”的未来场景——无论是个人生活还是专业工作领域,智能体都将成为关键助力。

对于软件开发者而言,这不仅是一场变革,更是一场机遇。AI 的持续突破正在重塑传统的软件工作流程与开发范式,为开发者提供了前所未有的创新空间,也带来了打造下一代应用的可能性。这一波 AI 浪潮,将迫使技术人员重新思考系统架构、交互方式与产品逻辑,也为那些渴望突破边界的人们,开启了一个极具想象力的时代。