what and why agentwhat agent and why agent? agent四大特性、核心组件 a

生命的本质

Life3.0(马克斯·泰格马克)认为：生命是自我复制的信息处理系统，即DNA类似于软件代码。这些遗传信息的传递机制就是生命体的软件，该机制最终决定了生命体的行动和结构（生命体的硬件）。生命发展的三个阶段： Life1.0:最原始的阶段-前人类阶段，生命如细菌般简单，一切反应和演变都由自然选择驱动。 Life2.0:人类当前所处的阶段，拥有自主意识，可以学习适应改变环境，但是生物硬件仍然受限于自然。 Life3.0:后人类阶段，此时生命不仅能设计自己的软件，还能根据需要改造自己的硬件。 AI是通向3.0的关键，需要3种核心能力。 - 存储能力：让信息保存在物质中。特点：信息独立于物质而存在 - 计算能力：让机器能够处理和解析这些信息。 - AI的自我学习能力：机器通过经验不断优化自身的过程。

what is agent?

传统的人工智能：在特定且受限的环境中执行预先设定任务。 agent:一个能够感知环境、做出决策并采取行动的系统。 - 感知环境：agent能够接收来自环境的信息---感知周围的交通情况、道路信息等 - 做出决策：agent根据感知的信息制定下一步的行动计划---决定是否加速、转弯、减速等 - 采取行动：agent根据决策执行相应的行动---控制加速器、方向盘和刹车等

agent四大特性：

自主性：能根据自身的知识和经验，独立做出决策和执行行动
适应性：能学习和适应环境，不断提高自己的能力
交互性：能与人类进行交互，提供信息和服务
功能性：能在特定领域内执行特定的任务

agent核心组件：

感知器：agent通过感受器接收关于环境的信息
知识库：agent根据目标和以往的经验，通过知识库存储和管理有关环境和自身状态的信息
决策引擎: agent分析感知的信息，并结合知识库中的数据，通过决策引擎做出决策
执行器：agent通过执行器在环境中采取行动，可以是物理动作：机器人移动手臂，也可以是虚拟动作：发送信息

agent的大脑，大模型的通用推理能力

在大模型出现之前，已经出现了： - 符号agent:采用逻辑规则和符号表示来封装知识并促进推理过程。---专家系统 - 反应型agent:侧重于agent与环境之间的互动，情调快速和实时响应 - 基于强换学习的agent:基于策略搜索和价值函数优化等基本技术,面临训练时间长、样本效率低和稳定性差等诸多挑战 - 具有迁移学习和元学习能力的agent

基于大模型的agent通过庞大的参数、大规模的语料库得到世界知识(WorldKnowlwdge)。通过思维链(Chain of Thought,COT)、ReAct(Reasoning and Acting,推理和行动)和问题分解(Problem Decomposition)等逻辑框架，引导agent展现出推理和规划能力，通过和环境的互动，从反馈中学习并执行新的动作，获得交互能力。

思维链(Chain of Thought,COT)---论文：Chain of Thought Prompting Elicits Reasoning in Large Language Models.通过思维链提示方法，引导大模型逐步推理，表现出更强的推理能力。
ReAct---论文：ReAct:Synergizing Reasoning and Acting in Language Models.ReAct框架将推理和行动结合，使得模型根据推理结果采取适当的行动，从而更有效的完成任务。
问题分解---论文：Decomposed Prompting: A Modular Approach for Solving Complex Tasks.问题分解将复杂问题分解为多个子问题，然后逐步求解，最后整合结果。

研究表明：多个agent在同一环境下共存并进行交互，可以促进复杂社会的形成。西部世界小镇：

大模型的本质是基于条件概率的数学模型，但是大模型能够通过在上下文预测的过程中生成内容，产生与人类相似的语言，创建与人类相似的表达方式，因此他们能够与智能体agent的目的性相适应，成为agent的逻辑引擎。

大模型在与训练阶段获得了广泛的世界知识。

预训练获得知识都属于大模型agent大脑的记忆的一部分。agent会结合记忆的知识和上下文来执行任务。此外，还可以通过检索增强生成(Retrieval-Augmented-Generation,RAG)和外部记忆系统(MemoryBank)整合形成外部记忆。

大模型极大的丰富了agent的理解和表达能力。大模型的推理能力提高了agent的自主性和适应性。

大模型的泛化能力：

广泛的语言理解能力
强大的推理和解决问题的能力
适应新任务和新领域的能力
处理未知数据的能力
跨语言和跨文化的能力

这种泛化能力带给大模型更通用的能力，而通用性也为agent提供了前所未有的创造力和灵活性。基于大模型的自我学习能力，agent可以不断学习新的知识和经验，优化决策过程。

agent的感知力：语言交互能力和多模态感知能力

语言交互能力：

1.语言交互是agent与人类或其他agent沟通的基础。

2.agent的语言交互嫩黄瓜了也表现为自然语言的生成能力。

多模态能力：

1.agent能够处理和解释来自不同感官的信息。如：视觉、听觉、触觉等

2.多模态能力的一个重要方面是整合能力，agent能将来自不同感官的信息整合为一个统一的理解。如：自动驾驶的红绿灯（视觉）、特种车辆的警报声（听觉）和车辆的速度和方向（触觉）

3.agent的多模态能力还允许他们进行理解和场景构建。通过分析和合成来自各个感官的信息，agent能构建对环境的全面认知，应用于不同的领域。

结合语言交互能力和多模态能力，agent的感知力和适应力将得到极大的增强。

agent的感知力：语言输出能力和工具使用能力

语言输出能力：

语言输出是agent进行有效沟通的基础手段。通过这种方式，agent能将思考转化为语言，与人类用户或者其他的agent交互。这不仅仅涉及到信息的单项传递。agent还能通过语言输出参与更复杂的社会交流，例如谈判、冲突解决和教学活动等。

工具使用能力：

两层含义：

1.一层是代码层面的工具调用：通过软件接口与各种系统交互。agent通过调用外部api来执行各种任务，如获取数据、发送指令或处理信息。eg:天气预报agent调用天气服务api获取最新的天气情况。

2.一层是物理层面的交互：涉及到机器人和其他硬件设备。这些设备被编程来响应agent的指令，执行具体的物理操作。直接扩展到与显示世界的交互，进入具身智能的范畴。

具身智能

含义：ai系统具有某种物理形态或与物理世界交互的能力，以增强其智能。核心思想是：智能不仅仅是抽象的信息处理过程，还包括物理世界中有效操作和作用的能力。

要求agent不仅能够理解其所处的环境，而且能在其中进行有效的物理交互。其实现依赖于多模态感知、空间理解、物理世界的动力学知识以及机械操作技能的结合。

机器学习和深度学习的进步使得agent能够从经验中学习和推理，从而提高自适应能力。通过强化学习等技术，agent能够在环境互动中学习如何有效地使用工具和执行任务。模仿学习和人类指导也为agent提供了学习复杂技能的方法。

具身智能的范畴内，agent通过感知环境和理解物理世界的法则，能够使用各种工具来完成任务。

agent对各行业的效能提升

- 自动办公助手 - 客户服务革命 - 个性化推荐 - 流程自动化和资源优化 - 医疗保健

agent带来的新的商业模式和变革

Gartner的8项重要预测

agent即服务，一个入口
多agent协作

在多agent系统开发中，一群来自不同专业、各具特定技能的agent将协同工作，共同完成比单独行动时更为复杂的任务。在这种系统中，每个agent可能由不同行业的数据进行训练，它们掌握不同的工具，互相协作，共同完成复杂的任务。这种协作模式能大幅度提升整个系统的效能和智能水平。

系统中的agent将被组织成不同的层级。高层次的agent可以负责决策指定、目标设定和整体协调。低层次的agent则执行具体的任务，如收集数据、处理细节问题等。这种分层结构能够确保任务在不同层面上的有效协调和执行。

agent变得更加专业化。每个agent都专注某个特定领域或任务，例如数据分析、用户交互和特定技术的操作。这种专业化让那个agent在其领域内能更加高效和精准地工作。

尽管每个agent可能负责不同的任务，但他们共同致力于实现系统的总体目标，这种目标导向能确保所有的agent都朝着统一的方向努力，提高整体的效率和成效。

多agent系统将配备高效的通信机制，包括但不限于实时数据共享、任务状态更新以及决策反馈等。这样的通信机制可以确保信息在不同的agent之间流畅传递，让系统能够更加快速响应变化和需求。

每个agent不仅在各自的领域内积累经验，还有可能通过与其他agent互动来学习新的策略和方法，让系统不断进化，以适应新的挑战和环境。

自我演进的ai

未来AI将发展出自我演进的能力。它能够识别并内化新知识，自动调整自己的模型以提升性能。Agent可能会承担学习和研究任务，提出假设并进行实验，推动科学研究的进步。

具身智能的发展

Gemini模型具有处理文本、代码、图像、音频和视频在内的多种数据类型的能力，旨在执行复杂的任务。将Gemini与机器人技术相结合，为智能agent、规划推理、游戏甚至物理机器人的快速创新奠定基础。agent使得物理设备更加强大、使其交互能力更加优越。

小结

agent的定义强调了以下四大特性： - 自主性：agent能够在没有人类直接干预的情况下独立做出决策 - 适应性：agent能够学习和适应其操作环境的变化 - 交互性：agent能理解自然语言，与人类或其他agent进行交互 - 功能性：agent可以在特定领域内执行特定的任务，简单如数据分析、图像识别，复杂如自动驾驶、炒菜做饭