敲黑板!吴恩达开始强推Agent工作流;智能体平台深度体验报告👍;OpenAI GPTs可能要烂尾了;抓住Agent创业风口;大模型Agent技术万字解析 |

1,766 阅读21分钟

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦!


👀 近期值得关注的 LLM 热点消息:几处早莺争暖树,谁家新燕啄春泥

最近一两周还算平静,国内 Kimi 站在了舆论风口 ⋙ 专题日报,美国最吸睛的是 Inflection AI、Stablity AI 两家初创公司的人事变动,其他就是各家大模型和产品的上新迭代。颇有点春光渐暖、万物勃发的意象 🌼

国内

  1. 知乎 | 发布「发现·AI搜索」功能:在「2024知乎发现大会」上,知乎创始人、董事长兼 CEO 周源发布了全新AI功能「发现·AI搜索」,以社区可信赖内容为来源,给用户带来集搜索、实时问答和追问功能于一体的全新体验 ⋙ 详情

  2. 淘天 | 即将发布自研大模型「淘宝星辰」:淘宝天猫集团自研大模型「淘宝星辰」官网已经准备好了,或将在不久正式对外开放。淘宝星辰是淘天集团公开的首个自研大模型,可以为商家提供文案编写、商家运营、数据分析、市场营销策略等智能服务,也可以为消费者提供生活服务推荐、商品智能搜索、商品喜好推荐等智能服务 ⋙ 详情

  3. 360 | 发布「360安全大模型3.0」:该模型在构建框架时充分参考人类大脑的运行逻辑,不仅实现安全基础知识问答、初级脚本分析等基础能力,而且锚定安全行业痛点、革新安全能力体系、引领未来安全实战 ⋙ 详情

  4. 腾讯 | 混元大模型参数规模扩展至万亿:腾讯在财报中首度披露腾讯混元采用混合专家模型结构,已扩展为万亿参数规模。目前,腾讯混元大模型已具备文生图、视频生成等能力。腾讯内部超过400个业务及场景已接入腾讯混元测试 ⋙ 详情

美国

  1. Apple | 寻求操作系统的外部大模型合作方: 最近陆续有消息爆出,苹果公司正在与多家大模型公司洽谈,寻求外部大模型为其 iPhone 设备提供生成式AI能力。从目前透露的消息来看,海外合作方选了 Google Gemini,中国选了百度 ⋙ 详情

  2. OpenAI | 开始向好莱坞推销 Sora:OpenAI 在美国洛杉矶与好莱坞制片厂、媒体高管、人才经纪公司举行会议,希望同娱乐行业建立合作伙伴关系,并鼓励电影制作人将 OpenAI Sora 整合到其创作过程中,还发布了与艺术家们合作生成的视频 ⋙ 详情

  3. Mistral AI | 突然宣布开源新模型: 前几天在一场黑客松活动现场,Mistral AI 突然宣布开源 Mistral 7B v0.2 Base Model,它是 Mistral-7B-Instruct-v0.2 背后的原始预训练模型。此次更新主要包括三个方面:将 8K 上下文提到了 32K;Rope Theta = 1e6;取消滑动窗口 ⋙ 详情

  4. Stability AI | 核心技术团队和CEO纷纷离职:公司发布官方公告,称 Emad Mostaque 辞去 CEO 及公司董事会职务,以追求去中心化的AI。加上此前参与 Stable Diffusion 模型研发的关键AI研究员都已离开,公司已经相继失去了十几位技术人才,风雨飘摇 ⋙ 详情

  5. Inflection AI | 卖身微软谈了个好价钱:微软官方发文宣布创业公司 Inflection AI 的 CEO 、首席科学家、核心科研团队一并入职微软,几乎掏空了这家公司。随后,知情人士透露,微软已同意向 Inflection AI 支付约6.5亿美元,以许可协议的形式使 Inflection AI的模型可以在微软 Azure 云服务上销售,帮助其投资者获得适度的资本回报。此外,微软还同意向 Inflection AI 支付1.4亿美元的信贷额度和约 3000 万美元的大模型相关权利费用 ⋙ 详情



👀 OpenAI GPTs 项目要烂尾?「小甜甜」短短两个月已成「牛夫人」

community.openai.com/t/techcrunc…

2023年11月,OpenAI 上线 GPTs 功能,全球AI开发者闻风而动;2024年1月,OpenAI 正式上线 GPT Store,开启了构建AI 智能体的风潮。

然而,被开发者们寄予厚望的 GPT Store 情况不太乐观,似乎要跟 ChatGPT Plugins 一样以「烂尾」收场

The Information 和 TechCrunch 近期都发文指出了 OpenAI GPT Store 存在的一些乱项,指出平台的垃圾 GPTs 太多了!

  • 侵犯知识产权:很多 GPTs 是关于热门电影、电视剧、电子游戏的,这些没有经过授权的开发行为已经游走在法律边缘了。

  • 挑战学术伦理:有些 GPTs 标明可以完成论文的不正当抄袭和改写,甚至宣称可以绕过AI内容检测器,这严重违背了学术道德。

  • 冒充名人/官方:大量 GPTs 冒充公众人物和知名企业,让用户误以为是官方运营或认可的。

  • 越狱模型泛滥:一些模型声称能够绕过 OpenAI的内容审查规则,生成诸如暴力、色情、仇恨等「越狱」内容 (实测做不到)。


当然,更棘手的是 OpenAI 和 开发者们的关系正在恶化。官方糟糕的运营政策和表现,让开发者们的高期待重重摔在了地上。概括起来有两点:

  • 有人败兴而归:开发者制作的 GPTs 没什么人使用,官方不分配流量也没有渠道进行营销,一段时间后就放弃了。而使用者进入到 GPT Store 尝试了几个垃圾 GPTs 后也就兴致缺缺地离开了。

  • 有人胡作非为:部分开发者「歪脑筋」太多了,聊几句之后让 GPTs 引导用户去第三方付费,有些甚至是公然剽窃站内已有的 GPTs。

  • 官方没有回应:一方面,开发者对 OpenAI 「暴殄天物」的行为感到失望,拥有全世界最强的大模型,却在产品设计方面如此拉跨;另一方面,这样一款声势浩大的产品,竟然没有设置 GPTs 开发门槛,也没有优质内容激励措施,而且无力应对审查挑战,OpenAI 似乎又一次揭露了自己的短板。



🉑 (目前) 最完整的 AI Agent 开发体验报告:除了 GPTs,这10个智能体平台也很好用

补充一份背景:在比较宽泛的语境里,AI Agent = 智能体 = GPTs = Bot,都是基于大模型能力构建完成特定任务的聊天机器人,比如小说写作、新闻搜集、人物对话等等。

如果我想创建一个比较专业的智能体,应该选择哪个平台呢?Coze,扣子,Dify,天工 SkyAgents… 它们有什么区别 & 有哪些操作 Tips

这篇文章可以解答你这些疑问!!作者是一名资深的 AI Agent 开发者和用户,在深度使用十多款 Agent 创作平台后,详细记录了它们的特点、优势和局限性。满满都是实战经验哇~ ⋙ 这篇可以收藏

分类

1. 第一类 | AI+插件coze / 扣子、Dify、百度 · 千帆 AppBuilder、昆仑万维 · 天工 SkyAgents、钉钉 · AI 助理 | 产品逻辑都是通过 Prompt、插件等给大语言模型带上附加功能,操作有相似之处,使用门槛不高 。

  • 插件功能:coze/扣子的插件最丰富,千帆 AppBuilder 的图像识别类插件最丰富。

  • 工作流功能:天工 SkyAgents 工作流提供了一些预设的大模型功能,钉钉 AI 助理工作流嵌入了一些钉钉内部功能,Dify 应该是准备中。

  • Multi-Agent 模式:目前只有 coze/扣子提供。

  • 发布方式:Dify、千帆 AppBuilder、天工 SkyAgents 都可以生成网页,扣子可以发布到飞书,钉钉 AI 助理必须在钉钉内部使用。

2. 第二类 | 以工作流为核心Botpress、Voiceflow、Zapier | 自动化流程的工具,只不过也可以提供 AI 作为工作流的一部分,适用于创建复杂工作流的需求 。 这里是引用 3. 第三类 | 关注任务分解Ai Agent、Reworkd AI | 能够自己完成任务的步骤分解,主动跟用户互动来明确执行流程。


第一类 | AI + 插件

  1. coze/扣子

  • 优点:① 综合能力和易用性排到前列;② 设计流程灵活,无需预先选择bot分类;③ 页面即使空空如也也能够进行对话;

  • 缺点:① 工作流调用不稳定,存在不按指令调动或调用超时等问题;② 多Agent模式下意图识别可能存在问题 ;③ 当前知识库作为一个单独节点输入输出太受限。


  1. Dify

  • 优点:① 多模型输出结果对比,帮助用户选择最佳答案;② 自动生成变量,简化工作流设计;③ 开启「标注回复」功能,可以在用户重读输入时提高响应速度,也可以手动编辑特定标准回复。

  1. 千帆 AppBuilder

  • 优点:① 提供了多种图像识别插件;② 发布渠道友好,支持个人认证的微信公众号。

  1. 天工 SkyAgents

  • 优点:① 提供了额外的信息处理节点,帮助构建更智能的工作流;② 部分操作预设了 Prompt,简化操作流程;③ 界面设计对用户操作比价友好。

  • 缺点:① 创建好的规划无法在当前页面测试,测试环节不够直观,可能影响调试效率。


  1. 钉钉AI助理

  • 优点:① 提供了详细的使用教程和操作示例;② 功能模块与钉钉生态紧密结合,适合企业内部使用;③ 业务工作流实现自动化,特别适合小型创业团队;④ 。

  • 缺点:① 功能受限于钉钉平台。


第二类 | 以工作流为核心

  1. Botpress

  • 优点:① 能够实现复杂的工作流和逻辑跳转,适合高度定制化的需求;② 支持持续接收用户输入并提供多样功能,增强了bot的交互性。

  • 缺点:① 学习门槛较高,产品设计可能显得混乱;② 参数配置分散,用户可能需要花费更多时间来熟悉和设置。


  1. Voiceflow (优点同上)

  1. Zapier

  • 优点:① 同上;② Prompt 格式全面,Actions 板块进入工作流设置;③ 工作流和能接入的 App 非常丰富。

第三类 | 关注任务分解

  1. Reworkd AI

  • 优点:① 能够自动进行任务分解,提供分阶段的结果输出;② 界面直观,允许用户看到AI的工作流程;③ ;④ 。

  • 缺点:① 不能根据输入依次执行任务,只能执行当前一次输入的任务拆分。


  1. Ai Agent

  • 优点:① 同上;② 允许用户在任务后添加补充任务,增强了bot的灵活性。

  • 缺点:① 同上。



🉑 吴恩达强推!今年 AI Agent Workflow (智能体工作流) 将成为重要趋势

www.deeplearning.ai/the-batch/i…

补充一份背景:吴恩达 (Andrew Ng) 是AI领域最权威的学者之一,曾担任斯坦福大学副教授,是 Google Brain 的创建者和领导者之一,也曾回国担任百度首席科学家并领导 Baidu Brain 项目,离职后创办 DeepLearning.AI 致力教育和研究。此外,他也是知名在线教育平台 Coursera 联合创始人。

要多留心上条提到的 WorkFlow (工作流) 功能了

最近,吴恩达也分享了团队关于 Agent Workflow (智能体工作流) 的研究成果,并预测这将成为今年的流行趋势!

👆 如上图所示,零样本 (Zero-shot) 模式下的 GPT-4 在 HumanEval (代码生成测评数据集) 上的准确率也只有 67.0%,但经过 Agent Workflow 加持的 GPT-3.5 准确率能飙升到惊人的 95.1%。也就是说,Agent Workflow 能带来显著的效果提升。


以文章写作为例。**零样本 (Zero-Shot) **指的是大语言模型在没有进行迭代修正的情况下直接生成最终输出,类似于人类在不允许回退删除的情况下一次性写完一篇文章

但是,更符合人类写作经验的模式是拆分成多个步骤,例如规划大纲、检索资料、撰写初稿、审阅初稿、修订草稿等,也就是上文提到的 Agent Workflow (智能体工作流)


此外,吴恩达简单列举了几种团队验证有效的 Agent 设计模式,并预告会进行详细介绍,感兴趣关注一下他的 X 账号叭 👏

  • 反思 (Reflection) :让大语言模型对自己的结果检查改进。

  • 使用工具 (Tool use) :让大语言模型调用外部工具,如网络搜索、代码执行等。

  • 规划 (Planning) :让大语言模型自己设计一个多步骤的计划来达成目标。

  • 多智能体协作 (Multi-agent collaboration) :多个 AI 智能体协同工作,分配任务,讨论和辩论想法,写作得到更好的结果。



🉑 如何把握 AI Agent 的创业时机,以及当下必知的行业共识

但过去一年时间,Agent 的飞速发展超出了我们预期,并且快速取得了行业共识,成为承载大模型应用的基本范式。围绕 Agent 正在逐步形成一套系统的方法论,和吸引了无数开发者、创业公司、资本及巨头的关注。

如果你想快速了解行业发展脉络、跟上行业共识,那最少需要了解以下内容。⋙ 引用参考1 | 引用参考2 | 引用参考3 | ⋙ 引用参考4

AI Agent 发展大事记

  • 2023年3月,微软发布 Microsoft 365 Copilot,提示了一种基于 LLM 的应用开发范式,也就是今天形成行业共识的 Agent。

  • 2023年4月,以 AutoGPT 为代表的 Autonomous Agent 热度快速蹿升,同期比较受关注的类似项目还有 TaskMatrix.ai、HuggingGPT、AgentGPT、Toolformer、BabyAGI 等等。

  • 2023年6月,Lilian Weng 发布知名博文「LLM Powered Autonomous Agents」,进一步推升了 Agent 的热度。

  • 随后,Multi-Agent 框架相继发布并展示了解决复杂问题的能力,目前比较火的包括 Camel、MetaGPT、AutoGen。

  • 2023年11月,OpenAI 举办开发者大会 DevDay,推出官方 Agent 开发框架 Assistant API,使开发者能基于 GPT 模型开发Agent。

  • 2024年1月,OpenAI 正式发布定制化 GPTs 和 GPT mentions,并随后上线 GPTStore。字节跳动海外版 Coze / 国内版扣子、Dify、百度千、天工、钉钉等国产 Agent 开发部署平台陆续被广大开发者熟知。


⌛ 11 个顶级开源 Agent 框架

  1. AutoGPT:基于中岛洋平的论文开发,是一个用于构建和运行定制AI代理的工具包,使用OpenAI的GPT-4和GPT-3.5大型语言模型。

  2. BabyAGI:中山的任务驱动自主代理的简化版本,这个Python脚本只有140行代码,使用OpenAI和向量数据库来创建、优先处理和执行任务。

  3. SuperAGI:AutoGPT的更灵活、用户友好的替代品,包含构建、维护和运行自己代理所需的一切,包括插件和一个云版本。

  4. ShortGPT:一个框架,允许使用大型语言模型来简化视频创作、语音合成和编辑等复杂任务。

  5. ChatDev:被打造成「一个虚拟软件公司」,使用多个代理人扮演传统开发组织中的不同角色,合作处理各种任务。

  6. AutoGen:微软开发的用于开发和部署多个代理的开源框架,这些代理可以共同工作以自主实现目标。

  7. MetaGPT:模仿传统软件公司结构的框架,代理被分配为产品经理、项目经理和工程师的角色,并协作完成用户定义的编码任务。

  8. camel:早期的多智能体框架之一,采用独特的角色扮演设计,使多个智能体能够相互通信和合作。

  9. Loop GPT:Toran Bruce Richards的AutoGPT的一个迭代版本,改进了对GPT-3.5的支持,集成和自定义代理能力。

  10. JARVIS:以ChatGPT作为其「决策引擎」,处理任务规划、模型选择、任务执行和内容生成。

  11. OpenAGI:一个开源的 AGI (人工通用智能) 研究平台,结合了小型专家模型和来自任务反馈的强化学习 (RLTF) 来改进它们的输出。


LLM based Agent 初创公司分类

中间层infra:这类公司专注于提供实用的 Agent 框架,降低开发 Agent 的复杂性,并促进 Agent 间的合作。

拿到知名机构投资的代表项目包括 AutoGPT、Imbue、Voiceflow、Fixie AI、Reworked、Cognosys、Induced ai等。

Vertical Agent:这类公司深入特定的行业领域,理解专家的工作流程,并运用 Agent 的思路来设计产品。

拿到知名机构投资的代表项目包括:Dropzone (安全领域) 、Middleware (大模型可观察性领域) 、Parcha (Fintech领域) 、Luda (游戏领域) 、Outbound AI (医疗领域) 、Fine (软件开发领域) 。


创业建议

微软亚研院首席研究经理 谭旭

  • AI Agent 领域如何构筑护城河:要深入到 AI Agent 各个环节,提升其解决实际需求的能力,并在实际场景中得到优化方向的反馈。但是,AI Agent领域目前缺乏一个评估体系,指导这个设计和优化过程

  • 阻碍相关研究落地的主因在于效果目前唯一的瓶颈是现有研究效果无法达到落地指标,只有 AI 的效果能够真正达到我们的需求标准时,才会被大规模广泛使用。

来也科技联合创始人&CTO 胡一川

  • AI Agent 落地数字员工时的挑战:① 模型的能力需要更强,因为业务复杂度可能超出现有模型的能力;② 应用生态需要更开放;③ 许多工作流程需要被优化和重构,以适应 AI Agent 的运作方式

  • 开发者选择大模型时的三个考量指标:① 效果考量,即需要在特定领域任务中表现出色;② 成本考量;③ 开源与闭源,服务B端客户时需要结合开源模型建立数据闭环。

真格基金管理合伙人 戴雨森

  • 回溯移动互联时代,对于中国早期AI创业者的三条建议:① 要灵活,用动态的眼光看待技术本身,适应技术的高速发展变化② 商业化应先关注用户新增,再思考用户留存;③ 先关注用户价值,再思考商业模式,如果产品能带来用户价值,就始终有办法从中提取一部分成为商业化收入。

  • 创业公司如何把握入场时机:① 创业需要寻找大趋势和小拐点结合的时机,然后迅速做出行动;② 从经验注意的角度出发,如果你相信一件事迟早会发生,那么剋有每隔五年尝试一次

真格基金EIR 季逸超

  • 不去抢有限的时间:让用户愿意为价值付费:① 在新平台出现之前, To C 创业者都是在与 TikTok/抖音争用户的注意力和时间;② (争不过) 所以,要寻找不需要长时间交互,但用户愿意付费的服务机会;③ 也就是说,不再跟成熟的产品去抢占用户有限的时间。


🉑 万字长文:从第一性原理看大模型 Agent 技术,掰开揉碎讲技术演变的原理

www.bilibili.com/video/BV1mC…

补充一份背景:第一性原理 (First Principles) 是一种基本的、不可推导的命题或假设,构成了一个理论体系或解释的基础。可以理解为「探索问题的本质」。

想了解 Agent 技术原理但不想啃论文的话,@邓范鑫 这次分享是一定要看的!视频时长1个小时,文稿字数过万,将近 40 份参考资料/文献,是 Agent 技术科普的入门必读指南。

文章梳理了 Agent 技术的发展路径,以及这条时间线上的主要研究和关键结论。脉络清晰,环环相扣。此外,还介绍了通用智能原理、面向目标架构这个两个根本性问题,以及基于的架构缺陷和未来可能的发展方向 ⋙ 点击阅读长文


开篇亮明观点:未来5到10年可能有一场大变局:99%的开发、设计和文字工作将被AI接管,人类开始进入智能时代。而智能时代的核心载体,不是网站也不是 App,而是 Agent (智能体)。


LLM Agents 发展历程

  • Prompt 工程:大模型刚出来的时候被当作一种编程语言,用户通过角色扮演、零样本提示、少样本提示等工程技巧,引导大模型的输出。

  • Prompt 外挂:为了克服大模型自身的诸多局限性 (如不能及时更新知识、上下文有限等),用户开始通过加入插件 (向量数据库)、调用外部工具 (ChatGPT Plugins 开放体系) 来增强功能。

  • 分解与组合:大模型推理能力存在显著天花板,因此完成复杂任务需要考虑执行策略,比如分解和组合 (MapReduce 模式、思维链 CoT /思维树 ToT / 思维图 GoT、累计推理等)。

  • 反馈:任务的分解和组合策略缺少与外界互动的能力,因此需要添加借鉴 ReACT 增加反馈机制,还可以借鉴强化学习 Reflection 机制积累经验 → 对应 OpenAI 推出的 Funtion Calling。

  • Agent:2023年4月 AutoGPT 横空出世,这种更彻底的技术变革正式宣布了 Agent 时代的到来。

  • Multi-Agent:多智能体也应运而生,比如「斯坦福小镇」、MetaGPT、清华 ChatDev 等项目,都展示了多角色智能体在群体智能涌现方面的潜力。

  • 技术发展脉络与现状:以上梳理了技术发展至今的脉络,不过现有大模型和 Agent 仍然面临着诸多挑战挑战。


通用智能基本原理

  • 大脑的系统1和系统2:系统1 (直觉系统) 包含快速思考、神经网络连接主义、长期记忆、深度学习、亚符号、潜意识和非结构化数据;系统2 (理性系统) 包含意识、思考、符号主义、逻辑推理图灵、机制结构化和模型。

  • 在构建 Agent 时,可以参考这两种系统的思维框架:在系统2中反复出现的行为会逐渐沉淀到系统1中,也就是同样的动作反复训练直至变成肌肉记忆和反射 → 称为Shortcut。


面向目标架构

  • 随着人类的生产方式的变化,软件工程可能正在逐步演化为智能体工程 (Agent Engineering),即以AI为中心+人类做辅助。

  • 例如,传统的用户界面,由于其垂直的任务层级架构,每一层都需要人类逐一生成,未来这个过程可能会被智能体自主生成并改良。


前瞻性分析: Agent 技术在未来的发展还有很大的提升空间

  • Central Executive:提出建立中央执行机构的概念,以增强Agent的规划和执行能力,包括内部加工过程的外部化。

  • Memory:强调记忆机制的重要性,包括记忆的内化、遗忘功能,以及长短时记忆与工作记忆之间的关系。

  • Sensory:指出多模态输入的必要性,以及时间感知在运动控制任务中的重要性,以及自上而下的机制问题。

  • Motor:讨论运动控制的未来发展,包括层次化控制和数据化执行,以及亚符号的控制方式。

  • Learning:强调Agent学习过程中对自身可靠性的判断和权威性的重要性,以及模型的多样性和解空间的扩展。

  • World Models:提出构建无矛盾、统一的世界模型的必要性,以及模型的推理能力和内部思考机制。

感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们!

◉ 点击 👀日报&周刊合集,订阅话题 #ShowMeAI日报,一览AI领域发展前沿,抓住最新发展机会!

◉ 点击 🎡生产力工具与行业应用大全,一起在信息浪潮里扑腾起来吧!