-
引言
围绕ChatGPT(广义上的生成式AI)的讨论,如今已演变为对智能体AI(agentic AI)的探讨。ChatGPT主要是一款能生成文本响应的聊天机器人,而AI智能体则能自主执行复杂任务,例如完成销售、规划行程、预订航班、预约承包商处理家务、订购披萨等。下图1展示了智能体AI系统的演进过程。
图1:智能体AI的演进
比尔·盖茨最近展望了一个未来场景:我们将拥有一款AI智能体,它能够处理和响应自然语言,并完成多项不同任务,他以规划旅行为例进行了说明。
通常情况下,这类事情需要你自己预订酒店、航班、餐厅等。但AI智能体能够利用对你偏好的了解,代表你预订并购买这些服务。
智能体AI系统的核心特征是其自主性和推理能力,这使它们能够将复杂任务分解为更小的可执行任务,然后以一种能够监控、反思并在需要时调整/自我修正执行过程的方式来协调这些任务的执行。鉴于此,智能体AI有望颠覆当今企业中普遍存在的几乎所有业务流程。
在本文中,我们将展示智能体AI如何应用于客服台(当今生成式AI采用率最高的领域之一)。从智能体的角度来看,呼叫中心(contact center)尤为值得关注,因为它们包含多种流程:
-
总结场景,例如范围广泛,从浓缩客户投诉、概述销售电话的结果,到提取通话中提到的消费金额等。
-
从对话角度而言,与总结产品咨询电话相比,总结技术支持电话需要不同的理解和侧重点。
-
呼叫中心的 transcripts存在通话不完整以及对话涉及多个主题的问题。因此,往往需要从用户那里获取额外输入或生成合成数据。
鉴于此,需要设计一个专门针对客服台的智能体架构,同时考虑生成响应的语义上下文和分布情况。
为此,我们将重点介绍与客服台相关的特定任务AI智能体。随后,我们将概述智能体AI平台的参考架构,并展示该平台如何在不断变化的业务和客户需求面前,以自我维持的方式协调这些智能体。
-
将客服台重构为智能体AI流程
在本节中,我们将展示如何利用自主AI智能体对典型的客服台进行重新设计(如图2所示)——通过为最终用户提供更高效、更个性化的服务来创造业务价值。
图2:基于自主AI智能体的客服台
如今,在呼叫中心,知识库(KB)文章/标准操作流程(SOP)定义了人类代理需要执行的系统化步骤流程。本质上,这是一个预定义的流程,包含解决常见客户问题的分步说明。
深入分析后,我们发现知识库文章中的步骤大致可分为以下几类:
-
需要用户交互:在这种情况下,人类代理与最终用户进行互动。他们会提出相关问题、解读答案、收集相关信息(例如产品/ listing ID),并传达状态信息。
-
数据检索与更新——适用于结构化和非结构化存储库:基于从用户那里收集到的信息,人类代理通过门户/图形用户界面(GUI)查询结构化数据库(DB)/数据仓库(DWH),以查看产品订单状态。然后,要么将结果反馈给用户,要么在需要检索更多信息或需要用户进一步澄清时执行下一步。
-
客服台——智能体AI平台
在本节中,我们将概述参考智能体AI平台的关键模块(如图3所示):
-
推理模块:用于分解复杂任务并调整其执行以实现给定目标;
-
智能体市场:包含现有和可用的智能体;
-
编排模块:用于编排和监控(观察)多智能体系统的执行;
-
集成模块:用于与企业源系统集成,例如ERP、CRM、知识库存储库;
-
共享内存管理:用于智能体之间的数据和上下文共享;
-
治理层,包括可解释性、隐私、安全、安全防护措施等;
-
以及在3.2节中详细讨论的个性化层。
图3:客服台智能体AI平台参考架构
给定用户任务后,智能体AI平台的目标是识别(组合)能够执行该任务的智能体(智能体组)。因此,我们需要的第一个组件是推理模块,它能够将任务分解为子任务,而各个智能体的执行则由编排引擎进行协调。
解决此类复杂任务的高层方法包括:(a)将给定的复杂任务分解为(层次结构或工作流中的)简单任务,然后(b)组合能够执行这些较简单任务的智能体。这可以通过动态或静态方式实现。在动态方法中,给定复杂的用户任务,系统会根据运行时可用智能体的能力制定满足请求的计划。在静态方法中,给定一组智能体,在设计时通过手动定义组合智能体,以整合它们的能力。
思维链(CoT)是当今应用最广泛的分解框架,它能将复杂任务转化为多个可管理的任务,并阐明对模型思维过程的解释。
智能体组合意味着存在智能体市场/智能体注册表——其中包含对智能体能力和约束的明确定义。
由于需要编排多个智能体,因此需要一个数据集成模块,以支持不同的智能体交互模式,例如智能体到智能体的API、提供供人类使用的输出的智能体API、人类触发AI智能体、以及有人工参与的AI智能体到智能体交互。这些集成模式需要得到底层智能体操作系统(Agent OS)平台的支持。
吴恩达(Andrew Ng)最近从性能角度谈到了这一点:
如今,很多大语言模型(LLM)的输出是供人类使用的。但在智能体工作流中,大语言模型可能会被反复提示以反思和改进其输出、使用工具、规划并执行多个步骤,或者实现多个智能体的协作。因此,在向用户展示任何输出之前,我们可能会生成数十万个甚至更多的token。这使得快速的token生成变得非常必要,而较慢的生成速度则会成为更好地利用现有模型的瓶颈。
这包括与多个企业源系统(例如知识库存储库、ERP、CRM)的集成,这对于大多数用例来说都是必需的。例如,可参考Anthropic最近提出的模型上下文协议(MCP),该协议用于将AI智能体连接到企业数据所在的外部系统。
鉴于此类复杂任务的长期运行特性,内存管理是智能体AI系统的关键。这既需要任务之间的上下文共享,也需要在长时间内维持执行上下文。
标准的做法是将智能体信息的嵌入表示存储到支持最大内积搜索(MIPS)的向量存储数据库中。为了实现快速检索,会使用近似最近邻(ANN)算法,该算法返回近似的前k个最近邻,以一定的准确性为代价换取巨大的速度提升。
最后是数据治理模块。我们需要确保用户针对特定任务共享的数据,或跨任务的用户档案数据,仅与相关智能体共享(表格/报告的身份验证和访问控制)。
3.1 客服台的智能体AI参考架构
在本节中,我们将上述参考智能体AI平台调整为能够执行客服台特定任务的平台。用户交互和数据接口步骤均可通过增强了工具(脚本、API和UI/UX)的大型语言模型(LLMs)实现自动化。
大型语言模型可以为用户生成问题、解读用户输入、提取相关信息,并生成状态消息和确认信息。API可用于检索结构化和非结构化数据,而后推理型大型语言模型可有效利用这些数据做出决策、确定下一步行动。
知识库文章、标准操作流程(SOP)可被视为有向无环图(DAG),其中每个节点代表一个步骤,边代表从当前状态可能的分支(结果/下一步)。
我们假设有一个面向AI智能体的知识库文章存储库,其中的文章包含每个步骤的以下详细信息:
-
action_id:待执行步骤的操作标识符。
-
action_type:定义操作类型,例如api_call(API调用)、get_user_input(获取用户输入)、retrieve_ext_knowledge(检索外部知识)。
-
action_metadata:对于get_user_input(获取用户输入),它包含期望从用户那里获得的输入或要传达给用户的消息。对于api_call(API调用)类型的操作,它包含相应的API端点,包括调用所需的输入参数。
基于大型语言模型的智能体随后可以自主执行知识库文章中的步骤。在这种情况下,相关的客服台智能体包括:
-
客户智能体
-
产品智能体
-
SLA智能体
-
个性化智能体
-
负责任AI智能体
-
音频(语音)智能体
-
基于RAG的知识库检索智能体
-
(基于生成式AI的)邮件回复生成智能体
基于此,各模块的工作方式如下:
-
推理模块:根据工作内存捕获的当前状态,确定在知识库文章/标准操作流程中要执行的下一个操作(状态)。
-
编排器模块:执行当前选择的操作。
-
用户交互层:与用户交互,收集输入并提供个性化响应(个性化方面将在下一节详细说明)。
-
内存存储执行历史,每个条目记录所选操作、参数和反馈。对于API调用,(参数)包含(解析后的)API响应或错误消息;而对于数据相关操作,它包含检索相关数据所需的用户输入/查询。
反馈指示当前操作是否成功执行,同时考虑用户提供的任何反馈。毋庸置疑,(反馈)构成了使用诸如人类反馈强化学习(RLHF)等技术持续改进推理模块的基础。
3.2 基于用户画像的智能体AI个性化
如今,用户期望获得无缝且个性化的体验,通过定制化的执行来满足其特定需求。然而,由于规模、性能和隐私方面的挑战,AI智能体的个性化仍然面临困难。
基于用户画像的智能体个性化旨在通过将服务的最终用户划分为可管理的用户类别集合来克服这些挑战,这些类别代表了大多数用户的人口统计特征和偏好。例如,在启用AI智能体的IT服务台场景中,典型的用户画像包括:
-
领导层:高层人员(如副总裁、总监),他们需要优先支持,包括安全访问敏感数据,以及在高级别演示和视频会议方面的协助。
-
知识工作者:严重依赖技术完成日常任务的员工(如分析师、工程师、设计师)。
-
外勤人员:主要在办公室外工作的员工(如销售代表、服务技术人员)。因此,他们的需求主要集中在远程访问公司系统、可靠的VPN以及对离线工作能力的支持。
-
行政/人力资源:负责各种行政任务的支持人员(如人力资源、财务),其主要需求包括对微软Office软件的协助、特定业务应用的访问权限以及日常IT问题的快速解决。
-
新员工/实习生:刚加入公司的人员,可能对公司的IT系统不太熟悉。因此,他们的查询主要集中在入职相关问题上。
鉴于此,图4展示了为IT服务台执行基于用户画像的智能体个性化的参考架构。
图4:IT服务台的智能体AI个性化
个性化过程首先包括对(聚合的)用户数据和对话历史进行参数化,并通过适配器将其作为记忆存储在大型语言模型(LLM)中,随后对大型语言模型进行微调,以生成个性化响应。智能体-用户画像路由器有助于执行用户细分(评分),并将任务/提示路由到最相关的智能体画像。
例如,可参考以下论文,分别了解在教育和医疗场景中基于画像的大型语言模型微调细节:
-
EduChat:考虑在教育语料库上对模型进行预训练以建立基础知识库,随后在个性化任务(如作文评估)上对其进行微调。
-
基于大型语言模型(LLM)的医疗助手个性化将参数高效微调(PEFT)与记忆检索模块相结合,以生成个性化的医疗响应。
-
结论
智能体AI(Agentic AI)是一种强大的范式,有望颠覆当今企业中普遍存在的许多业务流程。本文重点关注了广泛存在的客服台场景。
如今,客服台本质上是一个手动流程,需要大量的人工干预。我们重新构想了其底层流程,借助自主AI智能体实现了高度自动化。随后,我们识别并概述了与客服台相关的特定任务AI智能体。最后,我们呈现了智能体AI平台的参考架构,该架构能够以个性化方式为终端用户协调这些智能体。
最后,我们想强调的是,在企业中成功部署智能体AI用例,需要在智能体运维(AgentOps)生命周期的各个阶段进行变更管理并积极与终端用户互动。因此,在加速企业中智能体AI用例的采用时,需要考虑到这一点。