过去一年,围绕 Agent 的讨论里,最常见的两个创业方向是:
- 做一个垂类 Agent
- 做一组给 Agent 用的 Skill
这两个方向看起来都很合理,但如果把问题放到更底层的系统结构里看,会发现它们都不是真正适合垂类玩家构建长期壁垒的位置。
我的判断是:
- Agent 更接近 OS,而不是垂类产品
- 裸 Skill 的商业上限极低,本质上是卖 copy
- 真正值得构建的,不是 Agent,也不是 Skill,而是 Agent-native Application
这不是一个产品命名问题,而是一个系统分层问题。
只有把分层想清楚,才知道什么应该由通用 Agent OS 负责,什么应该由垂类 Application 承担,以及真正的护城河到底长在哪里。
一、为什么说 Agent 更像 OS,而不是 App
1. Agent 不是一个单点功能,而是一种通用交互范式
如果把 Agent 视为一种新的计算入口,它的角色更接近操作系统,而不是某个具体应用。
它负责的不是某一个确定任务,而是:
- 理解用户意图
- 在多任务之间做路由与编排
- 维护跨域上下文
- 协调模型、工具与服务
- 在有限资源下尽可能完成更多事情
这和传统 OS 的角色非常相似。
OS 不直接定义业务价值,它负责的是通用调度能力。
真正的业务价值,仍然来自运行在 OS 之上的应用。
手机就是一个典型例子。
用户通过手机完成购物、聊天、支付、导航,但不会为了“购物”去买一部专门的购物手机。手机提供的是通用交互层,具体价值由应用承载。
Agent 也是一样。
用户最终需要的不是一个“会聊天的壳”,而是一个能在具体任务里提供有效结果的系统。
所以从系统分层上说:
Agent 更像 OS,垂类更应该做运行在 Agent 上的 Application,而不是自己去重做一层 OS。
2. 垂类玩家的优势,不在 Agent OS 的主战场上
如果继续往下拆,会发现 OS 层和垂类层根本不是同一个竞争维度。
Agent OS 的主战场是:
- 通用推理质量
- 工具调用与编排效率
- 长短期上下文管理
- 人机交互体验
- 多模态理解与输出
- 通用生态整合能力
垂类玩家真正拥有的优势是:
- 领域知识密度
- 业务流程理解
- 专有数据
- 专家规则
- 特定行业的状态积累
问题在于,这两组能力并不在同一个战场上直接形成优势映射。
举个极端一点但本质准确的说法:
你拿领域理解去和 OpenAI、Anthropic、Google 比 OS 层的推理能力和编排能力,本质上是在拿刀去打坦克。
领域知识当然重要,但它更适合沉淀在 Application 层的状态、知识基座、执行逻辑 里,而不是拿去参加通用 Agent OS 的正面战争。
3. OS 层的市场结构天然收敛,垂类玩家不该押注那里
历史上,OS 层从来都不是一个分散型市场。
- PC 时代,最终收敛到 Windows / Mac
- 移动时代,最终收敛到 iOS / Android
- 云计算时代,基础云平台也高度集中
- 搜索、地图、支付等通用基础设施,也普遍呈现强收敛结构
原因很简单:
OS 层具备非常强的规模效应、生态效应和默认入口效应。
Agent OS 也大概率如此。
因为它一旦成为默认入口,就会同时获得:
- 更多用户交互数据
- 更多工具调用数据
- 更多反馈闭环
- 更强的开发者生态
- 更高的默认分发能力
这会形成典型的飞轮收敛。
所以对于垂类玩家而言,一个很现实的问题是:
你是否真的应该花三年时间,去做一层高度可能收敛到少数玩家手里的东西?
这三年,如果用来构建垂类状态、基础设施和业务闭环,通常会更有胜率,也更容易形成长期壁垒。
二、为什么说 Skill 不是壁垒:它的天花板是卖 copy
如果不做 Agent OS,那很多人会自然转向第二条路:做 Skill。
这听起来比做 OS 更务实。
但问题是,Skill 本身并不自动构成壁垒。
为了讲清楚这个问题,可以先把 Skill 拆成两类:
- Prompt 型 Skill
- Script 型 Skill
1. Prompt 型 Skill:提供启发,但不承担计算
Prompt 的本质,是给 Agent 一个额外的先验结构。
它可能是:
- 一段系统提示词
- 一套工作流模板
- 一组专家风格的推理指令
- 一段面向某任务的操作规约
它的价值是什么?
它的价值在于给 Agent 一个方向,让 Agent 更容易进入某种思考路径。
也就是说,它在做的是:
启发式引导(heuristic steering)
这当然有价值,但它有两个根本问题。
第一,它不替 Agent 承担真正的领域计算
Prompt 再强,本质上还是把问题留在模型内部求解。
也就是说:
- 领域判断还是 Agent 在做
- 推理成本还是 Agent 在付
- 注意力资源还是 Agent 在消耗
- 上下文预算还是 Agent 在占用
你并没有真正把复杂度从 Agent 身上搬走,只是让它“更有可能朝正确方向做”。
第二,它天然可复制
Prompt 是文本。
而文本是复制成本最低的数字资产之一。
只要别人看到了、理解了,就可以几乎无损复刻。
即使不是逐字抄,也很容易做语义等价重写。
所以 Prompt 型 Skill 的问题不是“有没有价值”,而是:
它有使用价值,但几乎没有防御价值。
2. Script 型 Skill:从启发式引导升级到外部代劳
相比 Prompt,Script 更进一步。
它不再只是告诉 Agent“该怎么想”,而是直接在外部执行部分逻辑,再把结果返回给 Agent。
形式可以很多:
- 脚本
- 工具函数
- 服务接口
- API
- 二进制程序
- 外部 workflow
它的系统意义在于,完成了一次重要跃迁:
从“指路”升级成“代劳”。
这是一个很关键的变化,因为它开始真正帮 Agent 降低负担。
原本 Agent 需要在 Context 里完成的某些任务,现在可以被外部工具执行掉。
这意味着:
- 模型内部推理负担下降
- 注意力竞争降低
- 任务结果更确定
- 执行路径更可控
这已经比 Prompt 前进了一大步。
3. 但如果 Script 背后没有状态,它仍然是可复现的
问题是,很多人把“能被调用的工具”误认为“壁垒”。
其实不是。
如果一个 Script 背后没有任何持久化状态,没有任何持续积累的系统资产,那么它本质上仍然只是一个纯逻辑函数。
它的特点通常是:
- 输入进来
- 执行逻辑
- 输出结果
- 不留下任何沉淀
在这种情况下,它虽然不是 Prompt,但它依然高度可复现。
因为别人只要理解你的输入输出关系和中间逻辑,就可以重写一个功能等价版本。
所以问题的关键不在于它是不是 Script,而在于:
它背后有没有不可复制的外部状态与系统积累。
如果没有,那么它依然只是一个高级一点的模板生意。
4. 所以 Skill 的商业上限,往往就是卖 Copy
很多 Skill 产品看起来很“聪明”,但商业形态上非常像下面这些东西:
- 模板
- 工作流
- 提示词包
- 工具集
- 自动化插件
- GPTs
这类东西不是没市场,而是它们的市场结构天然脆弱:
- 做得越好,越容易被看懂
- 越成功,越证明需求存在
- 越证明需求存在,越会吸引更多人进入
- 复制成本越低,价格竞争越快到来
所以 Skill 的真正问题不是“能不能卖”,而是:
它很难沉淀成真正的结构性优势。
如果接口背后什么都没有,那接口本身就是裸奔。
三、Agent 为什么天然需要外部 Application:两个不可回避的物理约束
要理解为什么垂类最终应该做 Application,而不是止步于 Skill,必须先理解 Agent 自身的两个根本限制。
这两个限制不是当前模型的偶发缺陷,也不是单纯靠“下一代模型更强”就能彻底消失的问题。
它们更接近系统级物理约束。
1. 约束一:上下文容量有限
这是最容易理解的一个约束。
Context 本质上是有限窗口。
无论窗口扩展到多大,它都不是无限的。
而且随着上下文变长,通常会同时出现几个问题:
- token 成本上升
- 延迟增加
- 检索与定位难度变大
- 信息噪声增加
- 指令遵循变脆弱
- 长链推理质量不稳定
也就是说,Context 不是一个可以无限堆料的地方。
你可以把它理解为 CPU cache,而不是无限硬盘。
它适合放当前任务真正需要的工作集,不适合承载全部历史与全部知识。
所以第一个硬约束是:
很多必要信息,不是模型“不会”,而是根本不应该长期塞在 Context 里。
2. 约束二:注意力带宽有限
这个比容量更重要,也更容易被低估。
很多人会下意识地把模型能力理解成一个“总分值”:
模型够强,就什么都能做。
但在实际系统里,更重要的问题是:
它能不能在同一个时刻、同一个上下文里,同时把多件异质任务都做好。
这涉及注意力带宽。
可以用一个直观的比喻来理解。
周伯通左手画圆、右手画方,单看每件事都不难,但同时做时会互相干扰。
Agent 也是一样。
当它在同一份 Context 里同时承担这些任务时:
- 理解当前用户意图
- 维护会话状态
- 做法律 / 医疗 / 金融等高要求推理
- 规划下一步调用什么工具
- 检查输出格式与约束
- 处理安全边界
- 生成用户可读响应
这些任务不是简单叠加,而是在争夺同一组注意力资源。
结果往往是:
- 不是某一项完全做不到
- 而是多项任务同时存在时,整体质量下滑
所以第二个硬约束是:
Agent 的问题不只是“装不装得下”,更是“即使装得下,也未必能同时做得好”。
注意力本质上是零和资源。
越多不同类型的认知任务放在同一个上下文里互相竞争,质量越容易退化。
3. 这两个约束,解释了为什么“什么都让 Agent 自己做”不是答案
如果 Agent 拥有:
- 无限 Context
- 完美注意力带宽
- 零成本高精度推理
- 对所有垂类都同样深刻的领域能力
那当然一切都直接让 Agent 自己做就行了。
但现实不是这样。
现实是:
- Context 有限
- 注意力有限
- 高精度领域推理代价高
- 多任务并行下质量会相互干扰
所以,一个成熟的 Agent 系统,天然会往两个方向演化:
- 把尽可能多的状态移出 Context
- 把尽可能多的领域计算移出 Agent 本体
而这恰恰就是 Application 层存在的根本理由。
四、Agent-native Application:壁垒到底长在哪里
现在可以回到最关键的问题:
什么样的东西,才能从“Skill”升级为真正有壁垒的“Application”?
答案不是“更复杂的提示词”,也不是“更多的工具调用”,而是:
让接口背后长出不可复制的外部系统资产。
我认为至少有三类。
1. 第一类资产:领域状态(Domain State)
这是最重要的一类。
所谓领域状态,不是泛泛而谈的“记忆”,而是用户在某一垂类业务里不断积累的、具有明确业务边界的状态资产。
例如:
- 法律系统中的案件进度、证据链、论点演化、引用判例
- 投研系统中的持仓逻辑、调仓原因、研究假设、风险约束
- 医疗系统中的病程轨迹、检查记录、医生意见、干预历史
- 企业服务中的工单状态、责任流转、审批脉络、组织上下文
这些东西有几个关键特征:
- 它们不是一次性输入
- 它们会随着交互持续生长
- 它们具有业务状态机属性
- 它们的价值来自时间累积和上下文连续性
这就意味着,后来者即使复制了你的表层功能,也没办法复制你已经长出来的状态厚度。
所以 Application 的第一个护城河是:
状态沉淀,而不是一次性能力展示。
2. 第二类资产:基础设施成本(Infrastructure Commitment)
真正的垂类系统,背后往往不是一个 Prompt 或一个脚本,而是一整套持续运行的基础设施。
例如:
- 领域微调小模型或 routing 模型
- 结构化 + 非结构化混合知识基座
- 检索、重排、过滤与压缩链路
- 实时数据接入与事件流处理
- 反馈采集与评估体系
- 审计、回溯、权限与合规机制
- 线上监控与故障恢复能力
这些东西的特点是:
- 不是一次开发完成
- 而是要长期维护
- 持续投入
- 不断校正
- 不断扩张
这类基础设施不是复制代码就能拥有的。
它要求长期资本投入、工程能力和组织执行力。
所以第二个护城河是:
持续养出来的系统能力,而不是“别人看懂就能抄”的逻辑能力。
3. 第三类资产:规模经济带来的成本优势(Economies of Scale)
这是很多人容易忽视的一个维度。
当一个 Agent-native Application 服务的用户规模足够大时,它会自然形成成本上的结构性优势,例如:
- 单位检索成本下降
- 单位推理成本下降
- 模型路由和缓存效果更好
- 冷启动数据问题缓解
- 评估与反馈样本更丰富
- 运维和基础设施摊薄成本更低
这带来的不是“更聪明”,而是纯粹的数学优势。
别人自己搭,也许功能能做出来,但同样质量下的成本结构会更差。
而成本结构一旦不占优,长期就很难在市场里打。
所以第三个护城河是:
规模不是附属收益,规模本身就是能力。
4. 当接口背后长出这三样东西,它就不再是 Skill,而是 Application
现在可以给出一个更清晰的分界。
如果一个东西只是:
- 一段 Prompt
- 一组工具调用
- 一个无状态脚本
- 一个可被轻易复刻的 workflow
那么它仍然属于 Skill 范畴。
但如果它背后开始具备:
- 持续增长的领域状态
- 持续投入的基础设施
- 可放大的规模经济优势
那么它本质上就已经不是 Skill 了。
它已经是一个 Agent-native Application。
五、Application 为 Agent 提供的两类核心价值
Application 的价值,不只是“更专业”。
它更重要的系统意义在于,正好对应了前面说的两个物理约束。
1. 第一类价值:能力解锁(Capability Unlocking)
能力解锁解决的是 上下文容量问题。
很多事情不是 Agent 理论上不会,而是没法把所需信息完整、稳定、低成本地装进 Context。
这时 Application 的作用是:
- 在外部维护海量领域状态
- 在外部维护结构化 / 非结构化知识
- 在外部做索引、检索、压缩、聚合
- 在调用时只把当前必要部分注入进来
于是原来“装不下”的事情,现在能做了。
所以所谓能力解锁,本质上是:
把不能直接放进 Context 的能力,转化成可被按需调用的外部能力。
2. 第二类价值:认知卸载(Cognitive Offloading)
认知卸载解决的是 注意力带宽问题。
Application 不只是替 Agent 省 token,更重要的是替 Agent 省认知竞争。
比如:
- 法律推理在法律应用内部完成
- 金融风控判断在投研应用内部完成
- 医疗路径判断在医疗应用内部完成
这样 Agent OS 不需要在一次上下文里同时承担:
- 通用交互理解
- 任务规划
- 高强度领域推理
- 多工具编排
- 响应生成
它只需要:
- 知道什么时候该调用谁
- 拿到结果后如何继续完成整体任务
这不是简单的“更快”,而是“更少干扰”。
而在复杂系统里,减少干扰通常比局部提速更重要。
所以认知卸载的本质是:
把会和其他任务争夺注意力的领域计算,迁移到外部专精系统中执行。
六、一个常见误解:领域状态不是 Memory
这里必须单独强调一个容易混淆的点:
领域状态 ≠ 通用 Memory
很多人在谈 Agent 时,一看到“长期积累”,就会把它归到 Memory 里。
但这两个概念的系统位置并不一样。
1. Memory 更偏 OS 视角
Memory 这个词通常讨论的是:
- 什么该记
- 什么该忘
- 怎么跨会话维持一致性
- 怎么为通用智能服务
这本质上更接近 Agent OS 层的问题。
它关注的是通用会话与任务连续性。
2. 领域状态更偏业务状态机视角
领域状态则不同。
它不是“通用地记住用户”,而是“在特定垂类里持续维护有业务边界的状态机”。
例如:
- 案件走到哪一步
- 这个投资组合为什么这么配
- 这个患者之前经历了哪些干预
- 这个工单为什么由 A 流转到 B
它不是为了让 Agent 更像一个“记忆力很好的人”,
而是为了让 Application 变成一个越来越厚、越来越难迁移的业务系统。
所以两者差别在于:
- Memory 是通用连续性能力
- 领域状态是垂类资产沉淀能力
从商业上讲,真正构成壁垒的是后者。
因为别人也许能抄走你的 Skill,
但抄不走你几年时间里长出来的业务状态厚度。
七、OS 与 Application 的真正分工:WHAT 与 HOW
当我们承认 Agent 是 OS,Application 是垂类价值承载层后,一个更清晰的分工就会出现。
1. OS 的命题是 WHAT
Agent OS 要解决的问题是:
- 当前用户到底要完成什么
- 多个任务之间如何编排
- 哪个能力该被调用
- 跨域上下文如何衔接
- 在有限资源下怎么取得最优完成效果
所以 OS 更适合持有:
- 用户意图
- 跨域上下文
- 全局任务图
- 调用路由策略
- 通用交互状态
它负责的是:做什么。
2. Application 的命题是 HOW
Application 要解决的问题则是:
- 在某个具体领域里,最优的处理方式是什么
- 需要哪些专业状态、规则、知识、模型与执行逻辑
- 如何给出高质量、可审计、可复用的结果
所以 Application 更适合持有:
- 领域状态
- 业务历史
- 专用知识与规则
- 垂类模型与工具链
- 专业执行流程
它负责的是:怎么做。
3. 状态边界也应该沿这条线切分
这意味着,状态不应该胡乱堆在一起,而应该沿 WHAT / HOW 这条分界线切分:
OS 持有:
- 用户当前目标
- 跨域任务切换关系
- 会话级连续性
- 跨应用的协调上下文
Application 持有:
- 特定垂类的业务上下文
- 长期业务历史
- 领域状态机
- 专业执行记录
这样做的好处是:
- 分层清晰
- 调试清晰
- 权限边界清晰
- 状态迁移与治理清晰
- 业务资产归属清晰
这比把一切都塞给“大一统 Agent Memory”要稳定得多。
八、Agent 时代最不一样的地方:OS 与 Application 会形成认知共生
这一点是我认为最值得重视的地方。
在传统计算范式里,App 和 OS 的关系是相对单向的。
- Word 不会让 Windows 本身变得更快
- 淘宝不会让 iOS 本身变得更流畅
- App 消费 OS,但很少反向增强 OS 的认知能力
但在 Agent 范式里,Application 和 OS 之间会出现一种以前很少见的关系:
认知共生(Cognitive Symbiosis)
1. 好的 Application 会让 OS 更聪明
原因很简单。
当一个高质量 Application 把某类高负荷领域推理从 Agent OS 身上搬走后,OS 的注意力带宽就被释放出来了。
这会直接改善 OS 在其他任务上的表现,例如:
- 用户意图识别更准
- 跨任务编排更稳
- 工具选择更合理
- 多应用协调更高效
- 最终响应更清晰
也就是说,Application 不只是完成一个子任务,
它还在降低 OS 的认知噪声。
2. 更聪明的 OS 也会让 Application 更强
反过来,一个更成熟的 OS 会:
- 更精准地判断何时调用哪个 Application
- 为 Application 提供更高质量的上下文切片
- 减少误调用和低质量调用
- 提供更多真实场景下的用户数据和反馈信号
这又会反过来强化 Application 本身。
于是形成飞轮:
- Application 卸载领域认知负荷
- OS 变得更轻、更稳、更聪明
- 更聪明的 OS 带来更精准调用
- 更精准调用让 Application 获取更高质量数据
- Application 再次增强,进一步卸载认知负荷
这个飞轮一旦成立,系统整体能力会高于“OS 单独运行”和“Application 单独运行”的简单相加。
这不是普通插件生态,而是一种更深层的结构关系。
九、最终结论:The best context is no context
把上面的逻辑收束起来,可以得到一个很核心的系统设计原则:
The best context is no context.
这句话不是说 Context 不重要,
而是说:不要把本可以外部化、状态化、服务化的复杂度,继续堆在 Context 里。
因为 Context 不是长期资产容器,也不是无限认知工作台。
它更适合承载当前任务真正必要的工作集。
所以,一个优秀的 Agent 系统不应该追求“把一切都塞给模型”,而应该追求:
- 能外部状态化的,就外部状态化
- 能外部执行的,就外部执行
- 能做专业分层的,就不要让通用 Agent 硬扛
- 能沉淀成 Application 的,就不要停留在 Skill
于是,最终的判断也就非常清楚了:
- Agent 是 OS
- Skill 只是接口,不是壁垒
- 真正的壁垒在 Agent-native Application
- Application 的本质,是替 Agent 解决容量问题和注意力问题
- 长期价值来自领域状态、基础设施和规模经济
- OS 与 Application 的终局关系,不是插件调用,而是认知共生
而这,才是我理解的 Agent 时代真正值得下注的位置。
几张图总结全文逻辑
因果主链
Agent 是 OS
→ 垂类玩家不该在 OS 层正面作战
→ 裸 Skill 没有壁垒,本质上是卖 copy
→ 根因是 Agent 存在两个系统级物理约束:
- 上下文容量有限:很多东西装不下
- 注意力带宽有限:即使装得下,也未必同时做得好
→ 所以需要 Agent-native Application 来承接外部复杂度
→ Application 的护城河来自三类不可复制资产:
- 领域状态
- 基础设施成本
- 规模经济优势
→ 它为 Agent 提供两类核心价值:
- 能力解锁:突破上下文容量约束
- 认知卸载:释放注意力带宽约束
→ 最终形成 OS 与 Application 的认知共生
→ 设计原则:The best context is no context
三层光谱
从指令到工具到服务,是逐步把复杂度搬到 Agent 外部的过程:
- 指令(Prompt):给 Agent 点拨方向,但活还是 Agent 干,带宽不减。文本可复制,壁垒为零。
- 工具(Script):外部代劳返回结果,带宽降低。但没有外部状态,逻辑可复现,壁垒低。
- 服务(Application):外部代劳 + 持久状态 + 基础设施,带宽和容量都大幅降低。不可复制,壁垒高。
从指令到工具的跃迁:从"指路"到"代劳"。从工具到服务的跃迁:加上领域状态、基础设施成本、规模经济带来的成本优势。
三样不可复制(从 Skill 到 Application 的跃迁条件)
- 领域状态:每次交互都在生长,从零追不上
- 基础设施成本:要真金白银持续养,不是复制代码能得到的
- 规模经济带来的成本优势:数学碾压,跟能力无关
两种价值 × 两个约束
- 能力解锁 → 突破上下文容量 → 做不到的事,做到了
- 认知卸载 → 释放注意力带宽 → 做得累的事,做得轻松了(消除干扰)
OS 与 Application 的分界
Agent OS 的命题是 WHAT(做什么),持有用户意图和跨域上下文。Agent Application 的命题是 HOW(怎么做),持有领域状态和业务历史。两者的独特关系是认知共生:好的 Application 让 OS 更聪明,更聪明的 OS 更精准地调用 Application。