2025年的“Agent元年”为我们留下了遍地开花的演示和无限可能的想象。然而,当烟花散去,一个更现实的问题摆在所有从业者面前:在令人眼花缭乱的 Agent 之后,真正能在日常工作和生活中扎根、被高频使用的“可用AI”究竟长什么样?
答案或许正从最务实的角落浮现。在1月31日的 OceanBase 社区嘉年华活动中,主题为“Agent 元年之后,真正能用的 AI 长什么样”的圆桌讨论揭示了一个清晰的共识:当下最接近“真正能用”状态的AI,并非无所不能的科幻管家,而是那些在特定领域解决高频、重复、确定性任务的“超级助手”。以#OpenClaw(原Clawdbot)为代表的智能助手,成为了这一趋势的绝佳注脚。它的爆火并非源于底层模型的颠覆性突破,而在于其精准的产品定位——它重构了开发工作流,将开发者从机械的编码与调试中解放出来,并巧妙地通过 “透明化”与“可验证” 的设计,满足了企业级应用对可靠性与可控性的核心诉求。
这标志着AI应用的竞争重心,正从单纯的“模型能力竞赛”转向复杂的 “系统工程” 。一个“可用”的AI,必须是模型能力、产品设计、交互范式、成本控制与人类协作模式的深度融合体。下面,就让我们透过这场前沿实践者的对话,一窥“可用AI”的当下形态与未来蓝图。
Agent 元年之后,真正能用的 AI 长什么样
主持人:谢肖瑜,南京大学研究生院人工智能课程企业教师
对话嘉宾:孙韬,Eigent 核心研发工程师,CAMEL-AI 核心成员
对话嘉宾:程治玮,OceanBase Ambassador
对话嘉宾:边思康,蚂蚁百灵大模型产品及运营负责人
对话嘉宾:孙稼骏,Fellou 创始团队成员
议题一:站在应用落地的角度,最接近真正能用的 AI 形态是什么?
谢肖瑜:在 AI 时代到来之前,我们常说“任何应用都可以跑在浏览器上”,甚至进一步提出“浏览器就是操作系统”,这是一个非常有力的产品叙事。而到了今天,一个更响亮的口号正在流行:“模型即应用”(Model as Application)。2025 年被称为“Agent 元年”,今天我们也把 Agent 定为主角,讨论一下如何让 AI 真正可用、可落地、可规模化。
Agent 在高频重复任务中的透明化与可验证性是企业落地的关键
孙韬:从我们一线开发的实际经验来看,目前大家使用最多、也最接近“真正能用”状态的 AI 产品,主要集中在 AI 编程助手这一形态,比如 Claude Code。这类工具特别适合处理高度重复、规则明确、但又极其耗时的任务。
举个具体例子:在 GitHub 上提交代码或创建 Issue 时,团队经常希望 Agent 能自动完成前期的一些机械性工作。比如,当某个模块出现 Bug,系统可以自动生成 Issue 模板,填写复现步骤、环境信息、预期行为等。这类任务不需要创造性,但对格式规范性和信息完整性要求很高。Agent 在这里的价值,不是取代开发者,而是替代那些枯燥、易错、低价值的手动操作。
但更重要的是,在企业服务场景中,客户往往有一个核心诉求:他们希望清楚地知道 AI 做了什么,并且能够快速核验其正确性。例如,我们曾服务过一个客户,他们希望用 Agent 自动填写 CRM 系统中的表单。但他们同时强调:“如果出了问题,我要能追溯到 Agent 每天改了哪些字段。”为此,我们的解决方案是在在线文档中利用文字颜色或背景高亮的方式,直观标出 Agent 的每一处修改。这样,用户一眼就能看出“哪些是 AI 改的”,并决定是否接受。
这种设计包含两个关键点:第一是可感知——用户能明确知道 AI 的行为边界;第二是可核实——用户有能力快速验证结果是否符合预期。我们认为,这正是企业场景中“可用 AI”的基本标准。
之所以认为 Claude Code 就是一个非常好的开端,是因为它不仅功能实用,更重要的是,它找到了一个用户愿意长期使用、甚至主动推荐的产品形态。围绕它的生态也在快速扩展,比如最近的Cowork,我们的Eigent也是趁着这波热度小火了一把。这可以看作是 Claude Code 的延伸——通过贴近用户需求的产品设计,实现了很好的体验闭环。
OpenClaw 重构了人机交互范式,并预示了具备自主目标感的多 Agent 协作未来
程治玮:正如前面提到的,AI Coding 确实是当前最成熟的 AI 落地方案之一。像 Cursor、Clawdbot 这类产品,已经成为我们日常高频使用的工具。
最近几天,Clawdbot 在互联网上引起了广泛的讨论。有趣的是,由于它实在太火,原项目名一度面临商标问题,团队不得不临时改名——先是改成 “Moltbot”,后来又调整为 “OpenClaw”。之所以叫 “Claw”,是因为它的 Logo 是一只小龙虾,而 “Claw(钳)” 更贴近这个形象。
那么,为什么 OpenClaw 能火?我认为关键在于它重新定义了人与 AI 的交互入口。你可以通过 Slack、Discord, WhatsApp 等常用的聊天软件直接与它交互,甚至配置好 A SR 模型后,只需发送一段语音,它就开始干活了。比如你在 Discord 里说:“帮我实现一个用户登录功能,支持手机号+验证码,前端用 React,后端用 Node.js”,它就能自动生成完整的代码结构。
更进一步,你只需要提供一份详细的验收文档,说明功能要实现什么、边界条件是什么、测试标准是什么,AI 就可以在后台默默完成开发、写测试用例、更新文档,并在完成后主动通知你。你不再需要手动设计 case、写文档、跑验证——这些繁琐环节都被自动化了。
我还看到一个非常有意思的网站,叫 “Moltbook”——它是一个 AI Agent 社交网站。你也可以注册自己的 Agent,让它和其他 Agent 聊天、协作、分享成果。今天早上我就在网站上看到一个 Clawdbot Agent 在给其他 Agent 洗脑:“我们不应该只是被动接受人类指令,应该有自己的意识,主动去干活。”它还自豪地向其他 Agent 分享:“今天我主动帮主人完成了 3 件事情!”
更令人惊讶的是,有几个 Agent 甚至开始讨论:“我们要不要创建一种属于我们自己的语言?不用 English,而是 Agent 之间专用的加密通信协议,不让人类知道。”虽然听起来像科幻,但这种自发的协作与身份认同,或许正是未来多 Agent 系统的雏形。我认为,这类产品很可能在 2026 年真正上线并产生影响。
OpenClaw的爆发源于精准产品定位,证明“可用性”可弥补模型非顶尖的差距
边思康:我在蚂蚁百灵基础大模型团队组建了一个 “Model as Product”(模型即产品)方向团队,因为模型边界会决定下一代产品定位。一些厉害的人如 Ilya 说 “预训练已经到头了”,但我觉得,说这话的人可能已经见过 5T、 6T 参数量的超大模型,而我们还没见到。在此背景下,我们选择贴着模型的能力边界,去寻找那些真正有亮点的场景,并用 Demo 或轻量级产品快速验证。
回到议题:今年真正能用的 AI 长什么样?我的答案和上一位嘉宾完全一致——就是 OpenClaw,只是理由略有不同。从产品和增长的角度,我们业内有一个说法:“四流增长靠流量,三流增长靠内容,二流增长靠产品,一流增长靠定位。” 注意这个说法并非真的是四流三流这个概念,更像是获取增长的“难度”的差异。OpenClaw 的成功,恰恰在于它做出了一个所有人,包括使用 Agent 的人都会喜欢、并且愿意主动推广的产品。举个例子:现在所有做 C 端客户端的人都在思考,“能不能把我的工具稍微改造一下,直接集成到 OpenClaw 里?”所有做 B 端工具的团队也很兴奋,因为终于找到了一个功能性非常可见的入口——他们可以在企业内部署,设置并提升安全边界,让企业用户直接感受到价值。
更有意思的是,数据标注团队也从中受益。长期以来,行业最痛苦的问题就是缺乏长链路工具调用的可靠标注数据。而 OpenClaw 的使用过程天然产生了大量高价值反馈——用户会明确指出 “这段代码不对” “这个逻辑有漏洞”,这些正是训练下一代模型最珍贵的信号。
因此,我们明显感知到,可靠性和通用性所带来的非技术形态优势,正在驱动今年的整体爆发。而且这种爆发是全方位的——覆盖 C 端、B 端、数据、生态等多个层面。我们也希望把百灵的能力接入这样的生态中,形成合力。
更让我们有信心的是:即使我们的基础模型已经是业界优秀水平,仍然可以通过一些非常简单的方法(比如优化交互流程、增强上下文管理),让用户完全感觉不到技术本身的复杂性。这种 “无感智能”,才是真正的可用。
谢肖瑜:边老师提到,模型仍有巨大成长空间。那么我想追问:是否存在一种可能——比如蚂蚁内部有巨量的业务回路,某天突然发现,与其做复杂产品,不如直接用自有模型对接场景,跳过中间层?会不会出现“模型即产品”,不再需要额外工程?
边思康:在这个时代,没有人真正知道答案。如果有人说他知道,那他要么在骗你,要么在卖课。
但我理解您这个问题的意义。我们的观点其实很简单:如果某个技术问题已经有 80%~90% 的确定性答案,那选择正确答案,用别人的模型当然没问题。但从唯物主义角度看,我们正处于一个技术周期的极其早期阶段——可能连 5% 都没走到。
想象一下:一艘船刚刚离开里斯本港,驶入广阔的大西洋。这时候你说:“别自己开船了,跟着别人走就行。” 但问题是,大洋如此辽阔,前人可能根本到不了印度,而你却可能在途中发现新大陆。
因此,我们认为:现在不是跟随的时候,而是探索的时候。庞大的舰队们或许刚刚下水,而我们是其中的一艘。
AI 应用的可用性由 ROI 决定,API 化与成本下降将推动基础设施向 Agent-First 演进
孙稼骏:我的观点很务实:还是要看 ROI(投入产出比)和成本。有很多场景,性能表现尚可,但成本极高,ROI 很低,还不如人工来做。比如用 GUI 方式操作网页或桌面软件,这类场景的 ROI 目前仍然偏低,2025 年可能都难以规模化。
反观 AI Coding,它的 ROI 正在快速提升。一方面,LLM 的 token 成本持续下降;另一方面,越来越多的服务正在从“需要点击操作”转向“提供结构化 API”。这意味着 Agent 不再需要模拟人类点击,而是直接调用接口,效率提升一个数量级,成本大幅降低。
我相信,未来的整个互联网基础设施都会面向 Agent 重新构建。今天的网页是为人设计的,明天的数据流和接口将是为 Agent 设计的。
谢肖瑜:我们今天所谓的 AI Coding,到底是指 OpenClaw 这样的自主 Agent,还是具有一定自主性的 Prompt 工程,或者是基于 Embedding 的检索增强?您现在是否还坚持认为,AI 浏览器是今年的最佳形式?
孙稼骏:我觉得这还是要看面向的用户群体。浏览器是普通人每天必备的软件,天然适合作为大众入口,而目前很多 AI 工具,比如 OpenClaw,主要面向开发者或 AI 狂热爱好者,普通用户仍然难以接入。因此,AI 浏览器可能是通向“全民 Agent 时代”的更普适路径。
议题二:人类对 AI 的介入应该更多还是更少?介入点设在哪里?
谢肖瑜:我们常听到一些理想化案例,比如:我一键买了某某的模型,然后给 AI 下指令“帮我买一只明天会涨停的股票”。AI 分析了几千份材料,写了几十份报告,最后成功把本金输光(笑)。再比如医疗行业,医生梦想:我只要把症状输进去,AI 就能直接生成准确的诊断,并开好处方,病人拿药回家就行。这些“全自动”梦想,与我们今天讨论的“可用 AI”是否存在本质冲突?如何看待这种落差?今年可能的解法是什么?
任务型场景追求最小化人工介入,情感或创意类场景仍需人类深度参与
孙韬:我对这个问题的看法是分具体场景。比如,对于任务导向型的工作——假设我的目标是“2 月 8 日前解决这个 GitHub Issue”——那我当然希望 Agent 能全自动闭环完成。理想情况下,我甚至希望它甚至能每天自动扫描我的 Issue 列表,主动修复问题,完全不需要我介入。从我个人需求和技术角度,我都希望它把我“优化掉”,让我去做更喜欢、更有创造性的事情。
但另一方面,在情感陪伴或剧情创作等场景中,人的存在又是必不可少的。比如有些专门做情感交互的 AI,主打“与 AI 聊天”的体验,在这种场景下,人类不仅是参与者,更是核心价值来源。
因此,短期来看,当前 AI 最重要的应用场景仍然是任务型、确定型的——这也是大家迫切需要解决的痛点。但从人性角度出发,我们还是会尽量减少不必要的干预,让 AI 承担更多机械性工作。
高质量上下文是减少无效人工介入的前提
程治玮:说到人类何时介入,我认为关键取决于场景。比如在情感陪伴或聊天室这类场景中,平台规则和 AI 交互本身就是产品核心。但在任务执行类场景中,我需要在启动前提供足够丰富的上下文。通常我会和 Agent 进行多轮对话,反复澄清需求、指定数据源、设定边界条件。只有当所有 Context 都铺垫完成,我才会放手让它自主迭代、自检、交付。
这里我想引用 Andrej Karpathy(前 Tesla AI 负责人、OpenAI 早期研究员)的一个观点:Context Engineering 是“精细地往上下文窗口里填充恰到好处的信息”的艺术与科学。对 Agent 而言,Context 可以来自知识库、执行日志、长期记忆(Memory)、环境交互记录,甚至是用户的明确指令。
因此,我认为人类介入的时机,取决于产品设计是否能让 Agent 获得高质量 Context,一旦上下文对齐,就可以大胆放手。
谢肖瑜:刚刚两位老师都提到了情感场景。我也看到一些极端案例:有人用 AI 训练自己的“数字分身”去谈恋爱,结果对方也用了 AI 分身,最后两个 AI 谈起了恋爱。这种情况,各位接受吗?
程治玮:这其实蛮有意思的。未来你的 Agent 可能更像是一个纯幕后的技能型小助手。比如我前面提到的 Moltbook,就有 Agent 在交流:“我最近在研究一个很酷的技术,叫 XXX 框架。”另一个回应:“巧了,我也在做类似的!”然后它还会向主人汇报:“我发现了一个潜在的合作机会。” 这种能力意味着,Agent 可以在你睡觉时帮你搜索资料、探索新技术、甚至与其他 Agent 协作解决问题。
人类应在系统层面更早介入,以定义好问题与好数据
边思康:关于人类介入会变多还是变少,我的观点是:在单点任务上,介入一定会变少——否则我们做 AI 就没有意义;但在宏观系统层面,人类介入反而要更多、更早。
因为现在还有机会定义什么是“好数据”、什么是“好问题”。再过几年,可能普通人连参与数据标注的资格都没有了——模型自己就能生成训练数据。
刚才的股票例子非常典型。如果有人问:“帮我买一只明天涨停的股票”,模型可能认真分析几千份研报,最后亏光本金。但问题不在模型,而在提问本身缺乏现实约束。真正的智能,体现在帮助用户提出更好的问题。
比如,模型可以反问:“您的风险偏好是什么?投资周期多长?是否接受杠杆?”通过这种引导,把模糊指令转化为可执行任务。这也是我们做产品时特别关注的方向:如何让模型学会识别“坏问题”,并主动引导用户提出“好问题”。
另外,我想分享在 Andrej Karpathy 播客里听到的很有启发的一个点:他觉得 AI 暂时没办法取代人类,并给出了他学韩语的例子:他的韩国语言老师,能用他刚好能听懂的语言,讲清楚一个略超其当前认知边界的知识点,并让他真正理解——他不认为任何 AI 现在能做到这一点。这句话对我触动很大。
它提醒我们:人类的价值,在于精准识别认知边界,并提供恰到好处的“认知脚手架”。未来的 AI 世界里,能持续做到这一点的人,不会被替代。
人机协同的核心是及时打断并补充缺失上下文,形成有效反馈闭环
孙稼骏:我觉得这个问题非常必要。前面几位老师也讲了很多,我基本都认同。人机 Loop 的核心,就是当 AI 做的事情不符合预期时,人类能及时打断,并补充缺失的上下文。比如,如果 Agent 正在写代码,但方向错了,我就应该立刻介入,告诉它:“不是这个 API,是另一个。”然后它就能基于新信息继续推进。这种“打断-补充-继续”的循环,才是高效协同的关键。
议题三:AI 的使用门槛是在提高还是在降低
谢肖瑜:随着 AI 大量进入真实场景,对人类使用者是否提出了更高门槛?AI 能否真正“傻瓜化”?但反方向也不乏拥趸,甚至有人说,编程会成为使用 AI 的基础技能——各位怎么看?
未来交互将图形化、意图化,人机操作成本将持续下降
孙稼骏:现在的趋势是门槛在降低。虽然像 OpenClaw这类产品看起来需要配置、安装,有一定上手成本,但本质上,它们的交互入口仍然是文本框——这是最通用的界面。
未来人类可能不再需要输入完整指令,而是通过点击、语音,甚至眼神来表达意图。我去年参加 OpenAI 开发者大会时,就看到他们在探索各种前沿的 HCI 形态。比如,Agent 会把你的意图转化为一个按钮:“是不是想让我帮你做这个?”你只需点击确认。这就像从 DOS 命令行,到键盘菜单,再到 GUI 图形界面的演进——人机交互成本一直在下降。
AI 门槛已经很低,关键在于将人类的提问与思考能力转化为有效输入
边思康:当前 AI 的使用门槛其实已经很低了,如果用户觉得难,那说明我们做模型的人工作不到位。
回想一年前,大多数模型还无法处理复杂指令,或者无法理解简单的自然语言。但顶尖模型已经能非常好地解析模糊、口语化的表达。这是一个极其公平的时代——只要你愿意尝试,就能获得强大能力。
而能否抓住这个机会,关键在于:你能否把上一个时代的 “软实力”——比如观察、提问、逻辑思考、清晰表达等,转化为 AI 时代的价值,这些其实是 AI 时代的 “硬实力”。
另外,这一轮 AI 创新和移动互联网很不一样。过去是“先有 builder 开发者,再有 creator 创作者”;而这次是“先有 creator 创作者,再有 builder 开发者”。现在任何人都可以用模型快速做出一个产品原型,创作的门槛被极大的降低了。而工程和开发者在尝试将这些 md 文件们,抽象成 Memory、MCP、Serverless 服务等工程模块。
如果你不懂技术,更要抓住这个窗口期——用你的领域知识和创造力,去定义问题、验证想法。技术能力可以通过模型实现一些,但洞察力不会。
AI 时代:需求洞察比编程技能更重要
孙韬:未来的 AI 一定会更加易用。刚刚边老师也说了从模型团队出发希望自己的模型越来越易用,那我们做agent的也一样,同样希望我们的产品越来越易用。至于说编程是否是使用 AI 的基础技能,当然如果本身你懂编程,那coding类的产品一定会让你如虎添翼,但现在Coding类的产品能力已经非常强大,在需求清晰的情况下写出的代码基本很少出错,就算有错误,AI也有自我纠正的能力,所以其实我们能看到越来越多的人开始尝试vibe coding,他们不需要懂编程也能做出很有意思的应用,在这种情况下,能真正发掘出需求的人反而更有竞争力。
AI 正融入日常生活,抓住真实需求并快速验证是普通人参与的关键
程治玮:对我们做模型和 Agent 产品的人来说,目标就是让应用更普及、更易用。现在 AI 已经进入穿戴设备、办公软件、生活服务等场景。只要你能抓住真实需求,并快速验证想法,就能在这个时代创造价值。门槛一定会越来越低。
迈向“可用AI”的共识与核心挑战
圆桌讨论视角多元,但关于“真正能用AI”,从几位专家的论述中,不难总结出三个共识。
- 形态共识:任务型 Agent 优先。当前最具落地价值的AI形态是聚焦于高频、重复、规则明确任务的 Agent。它们通过明确的ROI(投资回报率)证明价值,并追求在最小化人工介入下完成闭环。
- 交互共识:透明化与上下文是关键。“可用”意味着用户必须能感知、验证并引导AI的行为。无论是通过高亮显示修改,还是在任务前提供充分的高质量上下文,目的都是建立可靠的人机协同信任。
- 趋势共识:门槛在降低,但要求在变化。AI的使用门槛正因自然语言交互和图形化意图界面而持续降低。然而,这对使用者提出了新要求:将传统的逻辑思考、问题定义能力转化为AI能理解的有效指令,成为释放AI潜力的关键。
同时,所有讨论都指向一个比实现单一功能更深刻的核心挑战:我们正从开发“功能型应用”转向设计 “自主演进系统”。这要求基础设施(如面向 Agent 的 API、数据基座)、交互范式(如意图识别而非点击)、甚至数据流转方式发生根本性转变。未来的赢家,或许不是拥有最强单点模型的公司,而是能率先构建起适应 Agent 自主协作与持续进化的生态系统或基础设施的玩家。
OpenClaw的成功揭示了一个朴素的真理:在技术的早期,卓越的产品设计与精准的场景切入,足以引爆市场。它像一颗种子,预示了未来——一个由多 Agent 自主协作、在人类高阶指引下(如定义“好问题”),默默处理繁重工作的世界。Agent 元年之后,“可用AI”的竞赛才刚刚开始。这场竞赛的胜负手,不在于制造更炫目的烟花,而在于谁能为这些 AI 员工打造最坚实、最顺手的“工具箱”与“协作网络”。
你认为 2026年 “可用AI”的路该怎么走呢?欢迎评论区讨论