Agent 是 OS,Skill 的天花板是卖 Copy:真正的壁垒是 Agent-native Application

0 阅读22分钟

过去一年,围绕 Agent 的讨论里,最常见的两个创业方向是:

  1. 做一个垂类 Agent
  2. 做一组给 Agent 用的 Skill

这两个方向看起来都很合理,但如果把问题放到更底层的系统结构里看,会发现它们都不是真正适合垂类玩家构建长期壁垒的位置。

我的判断是:

  • Agent 更接近 OS,而不是垂类产品
  • 裸 Skill 的商业上限极低,本质上是卖 copy
  • 真正值得构建的,不是 Agent,也不是 Skill,而是 Agent-native Application

这不是一个产品命名问题,而是一个系统分层问题。
只有把分层想清楚,才知道什么应该由通用 Agent OS 负责,什么应该由垂类 Application 承担,以及真正的护城河到底长在哪里。

一、为什么说 Agent 更像 OS,而不是 App

1. Agent 不是一个单点功能,而是一种通用交互范式

如果把 Agent 视为一种新的计算入口,它的角色更接近操作系统,而不是某个具体应用。

它负责的不是某一个确定任务,而是:

  • 理解用户意图
  • 在多任务之间做路由与编排
  • 维护跨域上下文
  • 协调模型、工具与服务
  • 在有限资源下尽可能完成更多事情

这和传统 OS 的角色非常相似。

OS 不直接定义业务价值,它负责的是通用调度能力
真正的业务价值,仍然来自运行在 OS 之上的应用。

手机就是一个典型例子。
用户通过手机完成购物、聊天、支付、导航,但不会为了“购物”去买一部专门的购物手机。手机提供的是通用交互层,具体价值由应用承载。

Agent 也是一样。
用户最终需要的不是一个“会聊天的壳”,而是一个能在具体任务里提供有效结果的系统。

所以从系统分层上说:

Agent 更像 OS,垂类更应该做运行在 Agent 上的 Application,而不是自己去重做一层 OS。

2. 垂类玩家的优势,不在 Agent OS 的主战场上

如果继续往下拆,会发现 OS 层和垂类层根本不是同一个竞争维度。

Agent OS 的主战场是:
  • 通用推理质量
  • 工具调用与编排效率
  • 长短期上下文管理
  • 人机交互体验
  • 多模态理解与输出
  • 通用生态整合能力
垂类玩家真正拥有的优势是:
  • 领域知识密度
  • 业务流程理解
  • 专有数据
  • 专家规则
  • 特定行业的状态积累

问题在于,这两组能力并不在同一个战场上直接形成优势映射。

举个极端一点但本质准确的说法:

你拿领域理解去和 OpenAI、Anthropic、Google 比 OS 层的推理能力和编排能力,本质上是在拿刀去打坦克。

领域知识当然重要,但它更适合沉淀在 Application 层的状态、知识基座、执行逻辑 里,而不是拿去参加通用 Agent OS 的正面战争。

3. OS 层的市场结构天然收敛,垂类玩家不该押注那里

历史上,OS 层从来都不是一个分散型市场。

  • PC 时代,最终收敛到 Windows / Mac
  • 移动时代,最终收敛到 iOS / Android
  • 云计算时代,基础云平台也高度集中
  • 搜索、地图、支付等通用基础设施,也普遍呈现强收敛结构

原因很简单:
OS 层具备非常强的规模效应、生态效应和默认入口效应。

Agent OS 也大概率如此。

因为它一旦成为默认入口,就会同时获得:

  • 更多用户交互数据
  • 更多工具调用数据
  • 更多反馈闭环
  • 更强的开发者生态
  • 更高的默认分发能力

这会形成典型的飞轮收敛。

所以对于垂类玩家而言,一个很现实的问题是:

你是否真的应该花三年时间,去做一层高度可能收敛到少数玩家手里的东西?

这三年,如果用来构建垂类状态、基础设施和业务闭环,通常会更有胜率,也更容易形成长期壁垒。

二、为什么说 Skill 不是壁垒:它的天花板是卖 copy

如果不做 Agent OS,那很多人会自然转向第二条路:做 Skill。

这听起来比做 OS 更务实。
但问题是,Skill 本身并不自动构成壁垒

为了讲清楚这个问题,可以先把 Skill 拆成两类:

  • Prompt 型 Skill
  • Script 型 Skill

1. Prompt 型 Skill:提供启发,但不承担计算

Prompt 的本质,是给 Agent 一个额外的先验结构。
它可能是:

  • 一段系统提示词
  • 一套工作流模板
  • 一组专家风格的推理指令
  • 一段面向某任务的操作规约

它的价值是什么?

它的价值在于给 Agent 一个方向,让 Agent 更容易进入某种思考路径。
也就是说,它在做的是:

启发式引导(heuristic steering)

这当然有价值,但它有两个根本问题。

第一,它不替 Agent 承担真正的领域计算

Prompt 再强,本质上还是把问题留在模型内部求解。

也就是说:

  • 领域判断还是 Agent 在做
  • 推理成本还是 Agent 在付
  • 注意力资源还是 Agent 在消耗
  • 上下文预算还是 Agent 在占用

你并没有真正把复杂度从 Agent 身上搬走,只是让它“更有可能朝正确方向做”。

第二,它天然可复制

Prompt 是文本。
而文本是复制成本最低的数字资产之一。

只要别人看到了、理解了,就可以几乎无损复刻。
即使不是逐字抄,也很容易做语义等价重写。

所以 Prompt 型 Skill 的问题不是“有没有价值”,而是:

它有使用价值,但几乎没有防御价值。

2. Script 型 Skill:从启发式引导升级到外部代劳

相比 Prompt,Script 更进一步。

它不再只是告诉 Agent“该怎么想”,而是直接在外部执行部分逻辑,再把结果返回给 Agent。

形式可以很多:

  • 脚本
  • 工具函数
  • 服务接口
  • API
  • 二进制程序
  • 外部 workflow

它的系统意义在于,完成了一次重要跃迁:

从“指路”升级成“代劳”。

这是一个很关键的变化,因为它开始真正帮 Agent 降低负担。

原本 Agent 需要在 Context 里完成的某些任务,现在可以被外部工具执行掉。
这意味着:

  • 模型内部推理负担下降
  • 注意力竞争降低
  • 任务结果更确定
  • 执行路径更可控

这已经比 Prompt 前进了一大步。

3. 但如果 Script 背后没有状态,它仍然是可复现的

问题是,很多人把“能被调用的工具”误认为“壁垒”。

其实不是。

如果一个 Script 背后没有任何持久化状态,没有任何持续积累的系统资产,那么它本质上仍然只是一个纯逻辑函数

它的特点通常是:

  • 输入进来
  • 执行逻辑
  • 输出结果
  • 不留下任何沉淀

在这种情况下,它虽然不是 Prompt,但它依然高度可复现。

因为别人只要理解你的输入输出关系和中间逻辑,就可以重写一个功能等价版本。

所以问题的关键不在于它是不是 Script,而在于:

它背后有没有不可复制的外部状态与系统积累。

如果没有,那么它依然只是一个高级一点的模板生意。

4. 所以 Skill 的商业上限,往往就是卖 Copy

很多 Skill 产品看起来很“聪明”,但商业形态上非常像下面这些东西:

  • 模板
  • 工作流
  • 提示词包
  • 工具集
  • 自动化插件
  • GPTs

这类东西不是没市场,而是它们的市场结构天然脆弱:

  • 做得越好,越容易被看懂
  • 越成功,越证明需求存在
  • 越证明需求存在,越会吸引更多人进入
  • 复制成本越低,价格竞争越快到来

所以 Skill 的真正问题不是“能不能卖”,而是:

它很难沉淀成真正的结构性优势。

如果接口背后什么都没有,那接口本身就是裸奔。

三、Agent 为什么天然需要外部 Application:两个不可回避的物理约束

要理解为什么垂类最终应该做 Application,而不是止步于 Skill,必须先理解 Agent 自身的两个根本限制。

这两个限制不是当前模型的偶发缺陷,也不是单纯靠“下一代模型更强”就能彻底消失的问题。
它们更接近系统级物理约束。

1. 约束一:上下文容量有限

这是最容易理解的一个约束。

Context 本质上是有限窗口。
无论窗口扩展到多大,它都不是无限的。

而且随着上下文变长,通常会同时出现几个问题:

  • token 成本上升
  • 延迟增加
  • 检索与定位难度变大
  • 信息噪声增加
  • 指令遵循变脆弱
  • 长链推理质量不稳定

也就是说,Context 不是一个可以无限堆料的地方。

你可以把它理解为 CPU cache,而不是无限硬盘。
它适合放当前任务真正需要的工作集,不适合承载全部历史与全部知识。

所以第一个硬约束是:

很多必要信息,不是模型“不会”,而是根本不应该长期塞在 Context 里。

2. 约束二:注意力带宽有限

这个比容量更重要,也更容易被低估。

很多人会下意识地把模型能力理解成一个“总分值”:
模型够强,就什么都能做。

但在实际系统里,更重要的问题是:
它能不能在同一个时刻、同一个上下文里,同时把多件异质任务都做好。

这涉及注意力带宽。

可以用一个直观的比喻来理解。
周伯通左手画圆、右手画方,单看每件事都不难,但同时做时会互相干扰。

Agent 也是一样。

当它在同一份 Context 里同时承担这些任务时:

  • 理解当前用户意图
  • 维护会话状态
  • 做法律 / 医疗 / 金融等高要求推理
  • 规划下一步调用什么工具
  • 检查输出格式与约束
  • 处理安全边界
  • 生成用户可读响应

这些任务不是简单叠加,而是在争夺同一组注意力资源。

结果往往是:

  • 不是某一项完全做不到
  • 而是多项任务同时存在时,整体质量下滑

所以第二个硬约束是:

Agent 的问题不只是“装不装得下”,更是“即使装得下,也未必能同时做得好”。

注意力本质上是零和资源。
越多不同类型的认知任务放在同一个上下文里互相竞争,质量越容易退化。

3. 这两个约束,解释了为什么“什么都让 Agent 自己做”不是答案

如果 Agent 拥有:

  • 无限 Context
  • 完美注意力带宽
  • 零成本高精度推理
  • 对所有垂类都同样深刻的领域能力

那当然一切都直接让 Agent 自己做就行了。

但现实不是这样。

现实是:

  • Context 有限
  • 注意力有限
  • 高精度领域推理代价高
  • 多任务并行下质量会相互干扰

所以,一个成熟的 Agent 系统,天然会往两个方向演化:

  1. 把尽可能多的状态移出 Context
  2. 把尽可能多的领域计算移出 Agent 本体

而这恰恰就是 Application 层存在的根本理由

四、Agent-native Application:壁垒到底长在哪里

现在可以回到最关键的问题:

什么样的东西,才能从“Skill”升级为真正有壁垒的“Application”?

答案不是“更复杂的提示词”,也不是“更多的工具调用”,而是:

让接口背后长出不可复制的外部系统资产。

我认为至少有三类。

1. 第一类资产:领域状态(Domain State)

这是最重要的一类。

所谓领域状态,不是泛泛而谈的“记忆”,而是用户在某一垂类业务里不断积累的、具有明确业务边界的状态资产。

例如:

  • 法律系统中的案件进度、证据链、论点演化、引用判例
  • 投研系统中的持仓逻辑、调仓原因、研究假设、风险约束
  • 医疗系统中的病程轨迹、检查记录、医生意见、干预历史
  • 企业服务中的工单状态、责任流转、审批脉络、组织上下文

这些东西有几个关键特征:

  • 它们不是一次性输入
  • 它们会随着交互持续生长
  • 它们具有业务状态机属性
  • 它们的价值来自时间累积和上下文连续性

这就意味着,后来者即使复制了你的表层功能,也没办法复制你已经长出来的状态厚度。

所以 Application 的第一个护城河是:

状态沉淀,而不是一次性能力展示。

2. 第二类资产:基础设施成本(Infrastructure Commitment)

真正的垂类系统,背后往往不是一个 Prompt 或一个脚本,而是一整套持续运行的基础设施。

例如:

  • 领域微调小模型或 routing 模型
  • 结构化 + 非结构化混合知识基座
  • 检索、重排、过滤与压缩链路
  • 实时数据接入与事件流处理
  • 反馈采集与评估体系
  • 审计、回溯、权限与合规机制
  • 线上监控与故障恢复能力

这些东西的特点是:

  • 不是一次开发完成
  • 而是要长期维护
  • 持续投入
  • 不断校正
  • 不断扩张

这类基础设施不是复制代码就能拥有的。
它要求长期资本投入、工程能力和组织执行力。

所以第二个护城河是:

持续养出来的系统能力,而不是“别人看懂就能抄”的逻辑能力。

3. 第三类资产:规模经济带来的成本优势(Economies of Scale)

这是很多人容易忽视的一个维度。

当一个 Agent-native Application 服务的用户规模足够大时,它会自然形成成本上的结构性优势,例如:

  • 单位检索成本下降
  • 单位推理成本下降
  • 模型路由和缓存效果更好
  • 冷启动数据问题缓解
  • 评估与反馈样本更丰富
  • 运维和基础设施摊薄成本更低

这带来的不是“更聪明”,而是纯粹的数学优势。

别人自己搭,也许功能能做出来,但同样质量下的成本结构会更差。
而成本结构一旦不占优,长期就很难在市场里打。

所以第三个护城河是:

规模不是附属收益,规模本身就是能力。

4. 当接口背后长出这三样东西,它就不再是 Skill,而是 Application

现在可以给出一个更清晰的分界。

如果一个东西只是:

  • 一段 Prompt
  • 一组工具调用
  • 一个无状态脚本
  • 一个可被轻易复刻的 workflow

那么它仍然属于 Skill 范畴。

但如果它背后开始具备:

  • 持续增长的领域状态
  • 持续投入的基础设施
  • 可放大的规模经济优势

那么它本质上就已经不是 Skill 了。

它已经是一个 Agent-native Application

五、Application 为 Agent 提供的两类核心价值

Application 的价值,不只是“更专业”。
它更重要的系统意义在于,正好对应了前面说的两个物理约束。

1. 第一类价值:能力解锁(Capability Unlocking)

能力解锁解决的是 上下文容量问题

很多事情不是 Agent 理论上不会,而是没法把所需信息完整、稳定、低成本地装进 Context。

这时 Application 的作用是:

  • 在外部维护海量领域状态
  • 在外部维护结构化 / 非结构化知识
  • 在外部做索引、检索、压缩、聚合
  • 在调用时只把当前必要部分注入进来

于是原来“装不下”的事情,现在能做了。

所以所谓能力解锁,本质上是:

把不能直接放进 Context 的能力,转化成可被按需调用的外部能力。

2. 第二类价值:认知卸载(Cognitive Offloading)

认知卸载解决的是 注意力带宽问题

Application 不只是替 Agent 省 token,更重要的是替 Agent 省认知竞争。

比如:

  • 法律推理在法律应用内部完成
  • 金融风控判断在投研应用内部完成
  • 医疗路径判断在医疗应用内部完成

这样 Agent OS 不需要在一次上下文里同时承担:

  • 通用交互理解
  • 任务规划
  • 高强度领域推理
  • 多工具编排
  • 响应生成

它只需要:

  • 知道什么时候该调用谁
  • 拿到结果后如何继续完成整体任务

这不是简单的“更快”,而是“更少干扰”。
而在复杂系统里,减少干扰通常比局部提速更重要。

所以认知卸载的本质是:

把会和其他任务争夺注意力的领域计算,迁移到外部专精系统中执行。

六、一个常见误解:领域状态不是 Memory

这里必须单独强调一个容易混淆的点:

领域状态 ≠ 通用 Memory

很多人在谈 Agent 时,一看到“长期积累”,就会把它归到 Memory 里。
但这两个概念的系统位置并不一样。

1. Memory 更偏 OS 视角

Memory 这个词通常讨论的是:

  • 什么该记
  • 什么该忘
  • 怎么跨会话维持一致性
  • 怎么为通用智能服务

这本质上更接近 Agent OS 层的问题。
它关注的是通用会话与任务连续性。

2. 领域状态更偏业务状态机视角

领域状态则不同。
它不是“通用地记住用户”,而是“在特定垂类里持续维护有业务边界的状态机”。

例如:

  • 案件走到哪一步
  • 这个投资组合为什么这么配
  • 这个患者之前经历了哪些干预
  • 这个工单为什么由 A 流转到 B

它不是为了让 Agent 更像一个“记忆力很好的人”,
而是为了让 Application 变成一个越来越厚、越来越难迁移的业务系统。

所以两者差别在于:

  • Memory 是通用连续性能力
  • 领域状态是垂类资产沉淀能力

从商业上讲,真正构成壁垒的是后者。

因为别人也许能抄走你的 Skill,
但抄不走你几年时间里长出来的业务状态厚度。

七、OS 与 Application 的真正分工:WHAT 与 HOW

当我们承认 Agent 是 OS,Application 是垂类价值承载层后,一个更清晰的分工就会出现。

1. OS 的命题是 WHAT

Agent OS 要解决的问题是:

  • 当前用户到底要完成什么
  • 多个任务之间如何编排
  • 哪个能力该被调用
  • 跨域上下文如何衔接
  • 在有限资源下怎么取得最优完成效果

所以 OS 更适合持有:

  • 用户意图
  • 跨域上下文
  • 全局任务图
  • 调用路由策略
  • 通用交互状态

它负责的是:做什么。

2. Application 的命题是 HOW

Application 要解决的问题则是:

  • 在某个具体领域里,最优的处理方式是什么
  • 需要哪些专业状态、规则、知识、模型与执行逻辑
  • 如何给出高质量、可审计、可复用的结果

所以 Application 更适合持有:

  • 领域状态
  • 业务历史
  • 专用知识与规则
  • 垂类模型与工具链
  • 专业执行流程

它负责的是:怎么做。

3. 状态边界也应该沿这条线切分

这意味着,状态不应该胡乱堆在一起,而应该沿 WHAT / HOW 这条分界线切分:

OS 持有:
  • 用户当前目标
  • 跨域任务切换关系
  • 会话级连续性
  • 跨应用的协调上下文
Application 持有:
  • 特定垂类的业务上下文
  • 长期业务历史
  • 领域状态机
  • 专业执行记录

这样做的好处是:

  • 分层清晰
  • 调试清晰
  • 权限边界清晰
  • 状态迁移与治理清晰
  • 业务资产归属清晰

这比把一切都塞给“大一统 Agent Memory”要稳定得多。

八、Agent 时代最不一样的地方:OS 与 Application 会形成认知共生

这一点是我认为最值得重视的地方。

在传统计算范式里,App 和 OS 的关系是相对单向的。

  • Word 不会让 Windows 本身变得更快
  • 淘宝不会让 iOS 本身变得更流畅
  • App 消费 OS,但很少反向增强 OS 的认知能力

但在 Agent 范式里,Application 和 OS 之间会出现一种以前很少见的关系:

认知共生(Cognitive Symbiosis)

1. 好的 Application 会让 OS 更聪明

原因很简单。

当一个高质量 Application 把某类高负荷领域推理从 Agent OS 身上搬走后,OS 的注意力带宽就被释放出来了。

这会直接改善 OS 在其他任务上的表现,例如:

  • 用户意图识别更准
  • 跨任务编排更稳
  • 工具选择更合理
  • 多应用协调更高效
  • 最终响应更清晰

也就是说,Application 不只是完成一个子任务,
它还在降低 OS 的认知噪声

2. 更聪明的 OS 也会让 Application 更强

反过来,一个更成熟的 OS 会:

  • 更精准地判断何时调用哪个 Application
  • 为 Application 提供更高质量的上下文切片
  • 减少误调用和低质量调用
  • 提供更多真实场景下的用户数据和反馈信号

这又会反过来强化 Application 本身。

于是形成飞轮:

  1. Application 卸载领域认知负荷
  2. OS 变得更轻、更稳、更聪明
  3. 更聪明的 OS 带来更精准调用
  4. 更精准调用让 Application 获取更高质量数据
  5. Application 再次增强,进一步卸载认知负荷

这个飞轮一旦成立,系统整体能力会高于“OS 单独运行”和“Application 单独运行”的简单相加。

这不是普通插件生态,而是一种更深层的结构关系。

九、最终结论:The best context is no context

把上面的逻辑收束起来,可以得到一个很核心的系统设计原则:

The best context is no context.

这句话不是说 Context 不重要,
而是说:不要把本可以外部化、状态化、服务化的复杂度,继续堆在 Context 里。

因为 Context 不是长期资产容器,也不是无限认知工作台。
它更适合承载当前任务真正必要的工作集。

所以,一个优秀的 Agent 系统不应该追求“把一切都塞给模型”,而应该追求:

  • 能外部状态化的,就外部状态化
  • 能外部执行的,就外部执行
  • 能做专业分层的,就不要让通用 Agent 硬扛
  • 能沉淀成 Application 的,就不要停留在 Skill

于是,最终的判断也就非常清楚了:

  • Agent 是 OS
  • Skill 只是接口,不是壁垒
  • 真正的壁垒在 Agent-native Application
  • Application 的本质,是替 Agent 解决容量问题和注意力问题
  • 长期价值来自领域状态、基础设施和规模经济
  • OS 与 Application 的终局关系,不是插件调用,而是认知共生

而这,才是我理解的 Agent 时代真正值得下注的位置。

几张图总结全文逻辑

因果主链

Gemini_Generated_Image_m3kl9km3kl9km3kl.png

Agent 是 OS
→ 垂类玩家不该在 OS 层正面作战
→ 裸 Skill 没有壁垒,本质上是卖 copy
→ 根因是 Agent 存在两个系统级物理约束:

  • 上下文容量有限:很多东西装不下
  • 注意力带宽有限:即使装得下,也未必同时做得好

→ 所以需要 Agent-native Application 来承接外部复杂度
→ Application 的护城河来自三类不可复制资产:

  • 领域状态
  • 基础设施成本
  • 规模经济优势

→ 它为 Agent 提供两类核心价值:

  • 能力解锁:突破上下文容量约束
  • 认知卸载:释放注意力带宽约束

→ 最终形成 OS 与 Application 的认知共生
→ 设计原则:The best context is no context

三层光谱

Gemini_Generated_Image_ud6s2wud6s2wud6s.png

从指令到工具到服务,是逐步把复杂度搬到 Agent 外部的过程:

  • 指令(Prompt):给 Agent 点拨方向,但活还是 Agent 干,带宽不减。文本可复制,壁垒为零。
  • 工具(Script):外部代劳返回结果,带宽降低。但没有外部状态,逻辑可复现,壁垒低。
  • 服务(Application):外部代劳 + 持久状态 + 基础设施,带宽和容量都大幅降低。不可复制,壁垒高。

从指令到工具的跃迁:从"指路"到"代劳"。从工具到服务的跃迁:加上领域状态、基础设施成本、规模经济带来的成本优势。

三样不可复制(从 Skill 到 Application 的跃迁条件)

  • 领域状态:每次交互都在生长,从零追不上
  • 基础设施成本:要真金白银持续养,不是复制代码能得到的
  • 规模经济带来的成本优势:数学碾压,跟能力无关

两种价值 × 两个约束

  • 能力解锁 → 突破上下文容量 → 做不到的事,做到了
  • 认知卸载 → 释放注意力带宽 → 做得累的事,做得轻松了(消除干扰)

OS 与 Application 的分界

image.jpg

Agent OS 的命题是 WHAT(做什么),持有用户意图和跨域上下文。Agent Application 的命题是 HOW(怎么做),持有领域状态和业务历史。两者的独特关系是认知共生:好的 Application 让 OS 更聪明,更聪明的 OS 更精准地调用 Application。