Agent 时代,为什么 CLI 反而更加流行?

2 阅读7分钟

摘要:从 Claude Code 到钉钉 CLI,AI Agent 正在把命令行从编码工具变成通用基础设施。当用户从人变成 Agent,交互方式、服务对象和竞争维度都发生了根本性转换。

2026 年 3 月底,钉钉和飞书在一周内先后开源自己的 CLI 工具,把消息、日历、审批等企业协作能力打包成命令行接口。几乎同时,网易云音乐也将搜索和推荐封装为 CLI,成为业内首个向 AI Agent 开放核心能力的音乐平台。一个月后,xAI 被曝即将推出 Grok CLI,加入 Anthropic、OpenAI、Google 已经拥挤的终端赛道。

过去 40 年,软件行业一直在努力把普通人从命令行里解救出来;而现在,各领域最头部的产品正在主动把命令行接口重新装回去。这并非复古,而是诞生于上世纪的纯文本接口,终于在 Agent 时代等到了它真正的原生用户。

在这里插入图片描述

从编码工具到企业基础设施

这波浪潮的起点是编码工具。2025 年 2 月,Anthropic 推出 Claude Code,该工具凭借其端到端的自主执行能力迅速在开发者群体中普及。51 天后,OpenAI 发布 Codex CLI,开源首日 GitHub Star 破 5000。6 月,Google 开源 Gemini CLI,首日 Star 冲到 1.5 万,凭借免费的 1M 上下文窗口成为性价比之王。三家最重要的大模型公司,在不到半年里全部押注命令行形态。

到 2026 年,更重要的变化发生了:CLI 从编码赛道外溢,成为跨行业的基础设施。钉钉将 10 项核心企业能力封装为 CLI 并以 Apache-2.0 协议开源,飞书紧随其后开源 lark-cli 覆盖 11 大业务域、200+ 命令,附带 19 个预置 AI Agent Skill。网易云音乐接入 OpenClaw 生态,把搜索和推荐标准化为 CLI 接口。Stripe、Google Workspace、ElevenLabs 也相继把核心能力封装成了 CLI 接口。

这些公司横跨不同的赛道,动作却出奇一致:在既有 API 和 SDK 之外,新增一层面向 Agent 的 CLI 接口,交给 Agent 自行调度。CLI 正在褪去"程序员专属"的标签,转变为整个 AI Agent 生态的基础设施层。

在这里插入图片描述

为什么是 CLI

理解这个趋势的关键前提是——Agent 不需要视觉界面,它需要的是一个输入能被精确理解、输出能被无损解析的交互方式。CLI 恰好是这个需求的最优解。具体来说,CLI 有三个对 Agent 极其友好的结构性特征。

1. 自描述性

设计良好的 CLI 本身就是文档。--help 输出里,命令层级、参数类型、默认值、互斥关系一目了然,Agent 读一遍就能推断出完整的使用契约。相比 GUI 需要视觉模型去"看懂"按钮和菜单,CLI 的自描述性把工具的学习成本压到了最低。

2. 低开销与高可控

相比 GUI 需要渲染大量视觉元素,CLI 的输入输出都是纯文本,同样的操作意图一行命令就能表达。CLI 通过参数和退出码提供明确的契约,Agent 很容易生成和解析。而 GUI 的状态则隐藏在视觉层级里,Agent 很难稳定地"看懂"一个复杂界面当前处于什么状态。

3. 可组合性

Unix 哲学(管道、重定向、文本作为通用接口)让 CLI 可以像乐高一样拼接——Bash 脚本、CI/CD 流水线、命令之间通过管道自由串联,上一条命令的输出,直接成为下一条的输入。这种可组合性让 Agent 可以无缝嵌入任何工具链。

Agent 时代的产品形态

技术层面的适配性解释了 CLI 为什么更加适合 Agent,而从产品视角看,企业选择 CLI 而非其他形态,背后是三种产品设计理念的深层转换。

1. 委托式的交互方式

在 GUI 产品中,用户通过点击、拖拽、填写表单来逐步推进操作,系统实时反馈每一步的结果。这是一种"步步引导"的交互模式。而在 CLI 中,用户一次性下达完整的命令意图,Agent 自行规划执行路径并交付最终结果,用户负责验收。这种委托式交互把人从操作细节中解放出来,专注于意图表达和结果确认。

2. 以 Agent 优先

过去 40 年的产品设计理念是以人为中心——视觉层级、渐进式披露、动画过渡,这些原则全部围绕人类认知特征优化。但在 Agent 时代,界面不再主要服务于人类的感知与操作,而是服务于 Agent 的读取与执行。当一个产品缺少 Agent 可消费的接口层,它的图形界面再精致,在 Agent 生态中也是不可见的。企业把核心能力封装成 CLI,体现的正是这种以 Agent 优先的产品设计理念。

3. 差异化逻辑的迁移

GUI 时代,产品之间的竞争围绕界面展开——视觉层级、交互细节、品牌调性,用户最终记住的是体验。但在 Agent 时代,Agent 不"看"界面,它只消费能力。竞争维度随之迁移:不再是"谁的界面更好用",而是"谁暴露的能力更密集、生态位更不可替代"。钉钉一口气开放 10 项核心能力,飞书覆盖 11 大业务域,本质上是在这个新维度上抢占身位。

CLI 是银弹吗

技术上的优势和产品层面的验证都指向同一个结论,但 CLI 的适用边界同样明确。尤其在从编码工具走向企业基础设施的过程中,其中的问题也逐渐暴露出来。

1. 可观测性缺失

CLI 的输入输出都是纯文本流,Agent 在终端里执行了什么操作、改了哪些数据、触发了什么副作用,对人类而言几乎是黑箱。在编码场景下,有 Git diff 和测试结果兜底;但在企业管理场景——比如 Agent 通过钉钉 CLI 批量审批、通过飞书 CLI 创建日程,人类很难在不逐条审计的情况下确认操作的正确性。

2. 权限边界难以管控

在开发环境中,开发者尚能界定 Agent 的权限边界——终端本身即以开发者身份运行,权限范围清晰可控。但当 CLI 进入企业场景,Agent 开始操作真实业务数据,问题就变得尖锐了:一个 Agent 通过飞书 CLI 读取了谁的日历?推进了多少金额的审批?调取了哪些用户数据?目前大多数 CLI 缺乏细粒度的权限审计机制。

3. 碎片化的接口规范

CLI 化浪潮来得太快,各家的接口规范尚未收敛——钉钉、飞书、Stripe 等 CLI 的命令结构互不相同。对单个 Agent 来说,每接入一个新产品的 CLI,就要学习一套全新的命令体系、参数格式和输出结构。如果 CLI 不能形成某种程度的规范共识,Agent 的跨平台调度成本将随着产品数量线性增长。

CLI 没有复兴,只是终于被看见

CLI 从未真正退场,Unix 的设计哲学,一直支撑着服务端、运维和整个互联网基础设施。当下真正发生剧变的,是 CLI 在 Agent 时代迎来了价值重估——CLI 的高效与确定性优势一直存在,只是直到 Agent 时代,才等到了天然以纯文本为交互方式的原生用户。

当越来越多的企业都开始把核心能力压缩成 CLI,命令行迅速成为 AI Agent 生态当下最务实的基础设施层。但 CLI 的可观测性、权限管控、接口规范化等关键问题仍待解决。从长远来看,随着模型多模态能力的持续增长,一种融合 CLI 确定性优势与 GUI 可视化能力的"半图形半文本"界面,可能会成为下一阶段的主流。

相关资源