无意间发现了一个巨牛的人工智能教程,忍不住分享一下给大家。很通俗易懂,重点是还非常风趣幽默,像看小说一样。网址是captainbed.cn/jj。希望更多人能加入到我们AI领域。
一、从"养龙虾"说起:一场返祖式的革命
2026年初,技术圈最时髦的宠物不是猫狗,是一只红色的"龙虾"——OpenClaw。这只"龙虾"两个月内在GitHub狂揽25万星标,让Mac Mini卖到断货,成了AI时代的顶流明星。
OpenClaw火的核心逻辑很简单:让AI像人一样操作电脑,点击按钮、填写表单、打开软件。这听起来很未来,但也很别扭——就像让一位武林高手非要穿上西装去打架,束手束脚。
果然,剧情很快反转。2026年3月的最后三天,国内协作办公市场的两大冤家——钉钉和飞书,先后做了一件让外人看不懂的事:它们把自家产品"压扁"了,不是升级UI,而是反向操作,开源了一套命令行工具(CLI)。
3月27日,钉钉开源 dingtalk-workspace-cli(简称dws),把2000多个API压缩成104个命令。3月28日,飞书开源 lark-cli,覆盖2500+API,涉及11个业务域。紧接着3月29日,企业微信的 wecom-cli 也上架GitHub。这密集的排期,明摆着不是巧合,而是一场事先通气的"集体返祖"。
什么是返祖?过去四十年,人类软件工程的核心追求就是把黑底白字的命令行,包装成花花绿绿的图形界面(GUI),让电脑小白也能点着鼠标完成操作。现在AI来了,大厂们却纷纷把GUI剥掉,重新露出底层的命令行接口。
这不是倒退,而是一个残酷的真相浮出了水面:MCP只是过渡,CLI才是AI真正的母语。
二、MCP:伟大的"USB-C",但依然是个翻译器
要讲清楚CLI为什么是终点,得先聊聊MCP(Model Context Protocol)——这个由Anthropic在2024年底搞出来的"AI界USB-C"。
MCP确实是个好东西。在它之前,AI想要调用外部工具,就像去国外旅游,每个国家都要学一门新语言:调用GitHub要学一套API,调用Slack又要换一套,接入数据库还得再来一套。N个AI应用对接M个数据源,就是N×M种集成方式,累死程序员。
MCP做了什么统一?它定义了一套标准协议,让任何AI应用都能通过同一种方式接入任何数据源。就像USB-C接口,一根线能给手机充电、连显示器、接硬盘,统统搞定。
2025年3月,OpenAI宣布支持MCP;微软也把MCP塞进了Azure OpenAI和Semantic Kernel。到了2026年,MCP已经成了Agent开发的标配,社区里涌现出几千个MCP服务器,从查天气到操作浏览器,应有尽有。
但这里有个坑:MCP本质上是给人类程序员用的"翻译器",不是给AI用的"母语"。
你看MCP的工作方式:AI模型需要理解"工具描述",然后通过MCP服务器去调用实际功能。这中间有一层抽象,一层翻译。就像你跟一个法国人说英语,他听得懂,但反应慢,还容易会错意。
更麻烦的是上下文成本。MCP的工具描述、返回结果,统统要塞进大模型的上下文窗口。工具一多,Token消耗爆炸,响应变慢,还容易出错。为了解决这个,社区不得不又搞出"工具搜索""RAG-MCP"这些补丁方案。
这就好比给一辆电动车装上了燃油车的变速箱——能用,但别扭,不是原生设计。
三、CLI:AI的母语,不需要翻译
现在再看飞书和钉钉这波CLI开源操作,你就明白它们的狠辣眼光了。
CLI(Command Line Interface)是什么?是计算机最原始、最赤裸的接口。没有按钮,没有动画,就是一行命令,黑底白字,敲回车执行。对人类用户来说,这体验反人性——谁记得住那么多命令参数?
但对AI来说,CLI就是母语,是天堂。
AI Agent的本质是什么?是一个"执行指令的黑箱"。你给自然语言指令,它拆解成步骤,最后落实到计算机能理解的"动作"。而计算机能最直接理解的动作,从来都不是"点击坐标(345, 678)",而是 send_message --user="张三" --content="开会" 这样的命令行语句。
飞书的 lark-cli 开源后,AI Agent操作飞书不需要再模拟人类点鼠标。想发消息?直接执行命令。想查日程?lark-cli calendar +agenda 一行搞定。想操作多维表格?命令行直接灌数据。
钉钉的CLI设计得更激进。他们的 dws 工具原生支持Claude Code、Cursor这些主流Agent执行环境,还做了Schema动态发现——AI不需要预先硬编码接口,执行 dws schema 就能实时查询所有工具的参数规范。这就像给AI配了一本实时更新的字典,想干啥现查现用。
Google也在同一时期开源了 gws(Google Workspace CLI),让AI能直接操作谷歌全家桶。
大厂们集体选择CLI,不是因为怀旧,而是因为它们看清了一个事实:在Agent时代,软件的用户不再是"人类",而是"人类+Agent"。 人类需要图形界面,Agent只需要命令接口。
从"软件即服务"(SaaS)到"命令即服务"(CaaS),这是交互范式的根本转移。
四、MCP+CLI:过渡方案与终极形态的共生
说到这里,你可能会问:那MCP是不是没用了?会被CLI取代吗?
不会。更准确地说,MCP和CLI会形成一种"分层架构"——MCP负责"发现能力",CLI负责"执行动作"。
想象一个场景:你对着AI说"帮我查一下明天下午的空闲时间,给项目组发个会议邀请"。
这时候MCP的作用是什么?它让AI知道"这个人的日历在飞书上,通讯录在钉钉上,邮件系统在企业微信里"。MCP是地图,是目录,是USB-C接口标准,解决"在哪里"和"怎么连"的问题。
但真正的执行环节,AI不会通过MCP去模拟点击飞书的UI。它会直接调用 lark-cli calendar query 或 dws meeting create,用原生的CLI命令完成作业。
这种模式的优势在哪?
第一,Token效率爆炸。 用CLI直接操作,AI不需要处理大量UI元素的描述,只需要处理结构化的命令输出。钉钉的CLI甚至内置了jq过滤器,让Agent能精准提取所需字段,把大模型的Token消耗降低了约60%。
第二,可靠性飙升。 图形界面经常变,按钮位置一调整,基于视觉识别的AI就可能抓瞎。但CLI接口是稳定的契约,send_message 这个命令五年后大概率还在,参数结构也不会随便改。
第三,速度碾压。 没有UI渲染,没有网络延迟去加载JavaScript和CSS,就是纯命令执行。飞书的CLI用Go语言开发,编译成单二进制文件,冷启动毫秒级。这在Agent需要批量处理任务时,差距会拉大到几十倍。
五、对开发者的冷思考:现在上车还来得及
看完这波操作,作为开发者你该想什么?
第一,别再把AI当"辅助编程工具"了,要把它当"主要用户"来设计产品。 过去我们写软件,首先想的是"用户怎么点"。现在要先想"Agent怎么调"。如果你在做SaaS,尽快把核心能力抽象成CLI或API,别只包一层UI。飞书钉钉都这样了,你还有什么资格端着?
第二,MCP的技能树还是要点,但别ALL IN。 MCP目前仍是Agent生态的"通用语言",学会写MCP Server,能让你的服务被Claude、Cursor、Cline这些主流工具识别。但记住,MCP是入口,CLI才是出口。最理想的设计是:MCP做能力暴露,底层用CLI或原生API做高效执行。
第三,关注"AI原生"的范式转移。 a16z在2025年底的预测里提到,2026年将是AI原生UI和UX范式确立的一年。这里的AI原生,不是指"给软件加个AI助手",而是"软件本身就是为AI执行而设计"。飞书钉钉的开源CLI,就是这个预测的最好注脚。
第四,警惕"GUI遗产"的负担。 很多老系统改造Agent化,第一反应是"让AI去学人类怎么点"。这是死路一条,维护成本高,鲁棒性差。正确的姿势是绕过UI,直接暴露CLI或API给AI。就像钉钉做的那样,把2000多个API封装成104个原子化命令,这是给AI准备的,不是给人准备的。
六、结语:命令即服务的新大陆
回到标题:MCP只是过渡,CLI才是AI的原生界面。
这个判断不是贬低MCP——MCP作为连接标准,作为"AI的USB-C",它的历史地位已经确立。但它解决的是"连接问题",不是"交互问题"。AI真正高效的交互方式,从来不是通过层层抽象去模拟人类视觉,而是直接用计算机的母语——命令行——去驱动一切。
2026年3月底的这一波CLI开源潮,标志着企业协作软件正式完成了从"服务人类"到"服务Agent"的底层转变。飞书、钉钉、企业微信、Google Workspace,这些曾经靠UI取胜的产品,现在争先恐后地把自己"压扁"成命令行工具。
这背后是一个更大的时代信号:软件正在从"给人看"变成"给AI用"。
对于还在观望的开发者,我的建议很简单:去GitHub上拉一下 lark-cli 或 dingtalk-workspace-cli,试着让Claude Code通过它们完成一个真实的工作流。你会发现,AI执行任务的流畅度,比用Playwright模拟点击网页高出不止一个量级。
MCP让我们连接上了AI的神经系统,CLI则让AI真正长出了手脚。当两者结合,Agent时代的基础设施才算真正就绪。
别再训练你的AI怎么"像人一样点鼠标"了。直接告诉它命令怎么敲——这才是尊重一个AI的母语。
想要系统学习AI的朋友可以去看看那个人工智能教程captainbed.cn/jj