浅聊
刚刚贴完春联 , 外面爆竹声时而切近 ,时而遥远 。
天气也不错 ,晴 , 微风 , 些许料峭 ~
闲下来后 ,点开 B 站 ,就看到吴恩达教授在 Snowflake Build 的演讲
这次演讲的主题是 , 探讨AI AGENT与代理推理(Agentic Reasoning)的崛起
B 站视频 : www.bilibili.com/video/BV1La…
文中提到 Agent 相关知识 ,接着这次机会 , 我们在除夕 ,一起探讨一下
- 什么是 Agent ?
- Agent 分类 ?
- AI 技术栈 ?
- 重要趋势 ?
什么是 Agent ?
概念
AI Agent,即人工智能代理,一般直接叫做智能体。
它是一种能够感知环境、做出决策并采取行动的系统。
这些系统能够执行被动的任务,也能够主动寻找解决问题的方法,适应环境的变化,并在没有人类直接干预的情况下做出决策。
理解
为了更好的理解 Agent , 我们对比 None-Agent 和 Agent 的区别 ,并结合实际场景进行理解
场景 : 水课老师要你写 3000 字报告 并且只要求电子稿 , 你为了不被水淹没 , 决定使用科技🤡👈
- None-Agent
我们把课题要求 ,总结为一个 prompt ,
- Agent
我们可以发现 : 有 Agent 的 , 好像一个人
分类
吴恩达提出的四类AI代理
- 反思(Reflection)
- 定义与功能 :反思机制使模型能够在完成任务后进行自我检查和修正,类似于学生完成作业后的自查过程。
- 实际应用案例 :例如,在编写代码时,通过引入审查员角色来改进代码质量。当程序员生成一段代码后,审查员会检查其中的错误并提出修改意见,从而提高最终输出的质量。
- 工具调用(Tool Use)
- 定义与功能 :工具调用允许AI模型借助外部工具解决自身无法直接处理的问题。就像我们在计算复杂算术题时使用计算器一样,AI代理也能调用搜索引擎或数据库来获取更准确的信息。
- 实际应用案例 :比如,当你需要查询某个专业领域的数据时,AI代理可以自动访问相关的数据库,提取所需信息,并将其整合到最终答案中。
- 规划(Planning)
- 定义与功能 :规划能力让AI代理能够像人类一样分解复杂任务,逐步实现目标。
- 实际应用案例 :假设你希望从一张图片中提取动作特征,并将其转化为文字描述,最后转换为语音输出。AI代理会按照以下步骤操作:首先使用OpenPose模型提取动作,然后采用Google Weight模型将动作转换成图片,接着使用WAA GPT Two模型将图片转成文字,最后利用Fast Speech模型将文字转成语音。
- 多智能体协作(Multi-Agent Collaboration)
- 定义与功能 :这是多个AI代理共同合作解决问题的过程。**
- 实际应用案例 :吴恩达引用了清华大学团队开发的Chat Dev项目作为例子,展示了如何通过分工合作完成软件开发等复杂任务。在这个虚拟公司里,每个角色都有明确的职责,通过沟通链条和记忆流确保任务顺利完成。
技术栈
- Applications(应用层):
- 这一层是直接面向用户的AI产品和服务。它们基于底层的技术来解决特定领域的问题或提供具体的解决方案。例如,智能家居设备、自动驾驶汽车、个性化推荐系统等。
- Agentic Orchestration Layer(智能体编排层):
- 此层负责协调和管理多个AI智能体之间的交互与合作,确保这些智能体能够有效地协同工作。这可能涉及到任务分配、信息共享、冲突解决等功能。它使得复杂的AI系统可以更加灵活和高效地运行。
- Foundation Models(基础模型层):
- 基础模型是一类大规模训练的机器学习模型,它们可以在广泛的领域和任务中表现出色。比如大型语言模型、图像识别模型等。这些模型通常是通过大量的数据和计算资源训练得到的,并且可以通过微调适应特定的任务需求。
- Cloud Infrastructure(云基础设施层):
- 云基础设施为AI技术提供了必要的计算资源和支持环境。这包括存储、网络、计算能力等。云服务提供商如AWS、Google Cloud和Microsoft Azure等提供了可扩展的平台,支持从开发到部署的整个AI生命周期。
- Semiconductors(半导体层):
- 半导体层指的是支撑AI技术硬件层面的基础,尤其是高性能计算芯片。这些芯片对于执行复杂的AI算法至关重要。像NVIDIA、AMD和Intel这样的公司生产专门用于加速机器学习任务的GPU和其他类型的处理器。
四个重要趋势
- Agent ic workflows consume a lot of tokens, and will benefit from faster, cheaper token generation. (e.g., Samba Nova, Cerebra s, Grog)
- 解释:代理工作流(agentic workflows)消耗大量的令牌(tokens),这些令牌用于表示数据或指令。更快、更便宜的令牌生成技术将使这些工作流受益。例如,SambaNova、Cerebras和Groq等公司正在开发高性能的硬件,以加速令牌生成过程。
- Today's agents are built by taking LLMs trained to answer questions and retrofitting them into an iterative workflow. More LLMs will be fine-tuned for use in agent ic workflows, such as to use tools, to plan/reason (e.g., Open Al o 1) , or to use computers (e.g. Claude computer use) . This will make agents much more capable.
- 解释:当前的代理是通过将训练用于回答问题的大规模语言模型(LLMs)重新设计为迭代工作流来构建的。未来将有更多的LLMs被微调,以适应代理工作流的需求,如使用工具、规划/推理(例如OpenAI的o1模型)或使用计算机(例如Claude计算机使用)。这将使代理更加智能和强大。
- Data eng ir Data enginering's important is rising, particularly on management of unstructured data (text, images) .
- 解释:数据工程的重要性正在上升,尤其是在处理非结构化数据(如文本和图像)方面。随着数据量的增加,有效地管理和处理这些数据对于AI应用的成功至关重要。
- The text processing revolution has arrived. The image processing revolution is coming, and will enable many new visual Al applications in entertainment, manufacturing, self-driving, security, etc.
- 解释:文本处理革命已经到来,而图像处理革命即将到来。这将使许多新的视觉AI应用成为可能,包括娱乐、制造、自动驾驶、安全等领域。
总结:
- 更快、更便宜的令牌生成技术将提高代理工作流的效率。
- 规模语言模型(LLMs)的微调将使代理更加智能和多功能。
- 数据工程在处理非结构化数据方面变得越来越重要。
- 文本和图像处理技术的进步将推动多个领域的创新。
总结
这次演讲 ,有待多看几遍 ~ , 上述不是对视频全部内容的总结 , 选取个人感兴趣的东西做了梗概 ,
ok ~ , 从早上拖到晚上(还挺忙的) , 明天春节 , 在掘金给大家拜年了 ~