智能体的崛起（一）：Text-to-Action——AI从“生成”到“执行”本篇开一个智能体的崛起系列文章，这是首篇，讲

前面五篇文章，我们深入探讨了Claude Code和Codex这类AI编程工具。它们能自动读文件、写代码、执行命令——本质上，它们已经在做一件事：把“文字指令”变成“编程动作”。

但这只是开始。AI正在从“生成内容”，进化到“执行任务”。 不只是帮你写代码，还要替你用电脑、控制设备、操作机器人。

这就是Text-to-Action。本篇是这个系列的第一篇，我们来聊聊这个概念是什么、从哪来、往哪去。

一、从“会说”到“会做”

回顾一下你最初用DeepSeek的方式：

你说：“帮我写一个微信小程序登录页”
DeepSeek返回：生成代码
你执行：复制代码，创建文件，粘贴进去，运行，看报错，……

这是典型的Text-to-Text模式。

而Claude Code/Codex的模式是：

你说：“帮我创建一个微信小程序登录页”
Claude Code返回：搜索项目结构、读取相关文件、创建四个页面文件、在app.json中注册、输出完成结果

这是Text-to-Code模式。

Text-to-Action不局限于编程，而是让AI能操作整个电脑，甚至控制物理设备：

你说：“把桌上的杯子放到洗碗机里”
AI返回：规划路径、识别杯子位置、控制机械臂抓取、走到洗碗机、放置

从“生成”到“编程执行”，再到“通用执行”，再到“物理操作”——这就是Text-to-Action的范式跃迁。

二、Text-to-Action是什么？

简单定义：用户用自然语言描述目标，AI自主规划并执行多步操作，最终完成任务交付。

Text-to-Action的本质：把“人用电脑/机器”的过程，变成“AI替人用电脑/机器”。你只需要告诉它“做什么”，它自己搞定“怎么做”。

学术起源：2017年的《Text2Action》论文

Text-to-Action这个方向，最早可以追溯到2017年。

当年10月，韩国首尔大学安慧敏（Hyemin Ahn）团队在arXiv上发表了论文 《Text2Action: Generative Adversarial Synthesis from Language to Action》 ，后被2018年IEEE国际机器人与自动化大会（ICRA）收录。

他们做了什么？

让AI通过观看YouTube视频，学习人类语言和动作之间的对应关系：

从MSR-VTT（微软视频描述数据集）中提取了29,770对“动作+文字描述”数据
使用生成对抗网络（GAN）+序列到序列（SEQ2SEQ）模型，让AI学习语言与动作的关联
最终效果：输入一句文字（如“举起右手”），AI能生成对应的人体动作序列，并能迁移到Baxter机器人上执行

【小编注：目前应用很火的旧图翻新使用的图像生成对抗网络GAN与这里的GAN原理相同（都是生成器+判别器的对抗训练），但应用场景不同，一个是生成图像内容，一个是生成人体动作序列】

研究意义：这是第一次用YouTube视频来学习日常语言与日常动作之间的关系，为后来的Text-to-Action研究奠定了基础。

值得一提的是，几乎在同一时期，Google发表了 《Attention Is All You Need》 （Transformer论文）。两者在2017年交汇，一个研究“让AI动手”，一个研究“让AI听懂”——共同开启了通向Text-to-Action的道路。

技术演进：从GAN到大模型

从2017年到现在，Text-to-Action技术经历了三个关键阶段：

🌱萌芽期（2017-2023）

技术特点：GAN+RNN为主，语言理解有限
代表工作：首尔大学《Text2Action》论文

🚀探索期（2024-2025）

技术特点：Transformer替代RNN，语言理解能力跃升
代表工作：AutoGPT、XAgent

🔥爆发期（2025-2026）

技术特点：大模型统一语言理解和动作执行，通过工具调用实现通用操作
代表工作：OpenClaw、Claude Cowork

最关键的变化：OpenClaw等项目的出现，不再需要专门训练“动作模型”，而是直接用大模型的工具调用（Function Calling） 能力来完成电脑操作。语言理解和动作执行被统一到了一个大模型里。

三、大模型LLM与智能体在Text-to-Action中分工

你可能会有疑问：大模型不是只能输出文本吗？那“Action”是谁执行的？

答案是：大模型负责“思考”和“规划”，智能体负责“执行”和“反馈”。

Text-to-Action的真正机制：用户输入文字 → 智能体→大模型规划动作 → 智能体执行动作 → 循环，直到任务完成。

大模型输出的是结构化的指令（通常是JSON格式，或者函数调用），不是自然语言描述，如下面的JSON数据：

{

"action": "send_message",

"params": {

"platform": "wechat",

"target": "工作群",

"content": "今日天气：晴，25°C"

}

智能体收到后：

解析JSON → 识别action: "send_message"
提取参数 → platform: "wechat", target: "工作群"
调用微信API或模拟操作 → 发送消息
返回结果给大模型 → “消息已发送”

智能体解析这些指令，调用相应的工具（打开浏览器、发送消息、读写文件），然后将执行结果返回给大模型。

如果让大模型输出“请调用微信发送消息”，智能体需要解析这句话，但这不是智能体的强项，可能会解析错误，造成Action执行失败。

四、Text-to-Action的四个演进层次

Text-to-Action不只是“替你用电脑”。它的终极形态，是控制物理世界：

L1：数字世界操作（✅已成熟）

操作软件、浏览器、文件系统
代表：OpenClaw、Claude Code

L2：API调用（✅已成熟）

调用外卖、打车、订票等网络服务
代表：AutoGPT、GPT Actions

L3：外设控制（🔄正在普及）

控制打印机、智能家居、工业设备
代表：miclaw（小米）、Home Assistant

L4：具身智能（🔄实验阶段）

控制机器人、机械臂、自动驾驶
代表：特斯拉Optimus、Figure 01、宇树H1 2.0

关键洞察：从L1到L4，AI的控制范围从“数字界面”扩展到“物理世界”。Text-to-Action的最终形态，是让AI成为能替我们做事的“具身智能体”。

L3：智能家居控制——已成熟

小米的miclaw已经实现了这一层。用户通过自然语言控制全屋设备：

你在微信里发：“我下班了，准备回家”
AI：打开空调（26度）、打开热水器、关闭窗帘、播放音乐

这不是“替你用电脑”，而是“替你操作物理设备”。

L4：具身智能机器人——正在突破

一个真实的例子（2026年2月）：

用户对特斯拉Optimus说：“把桌上的杯子放到洗碗机里”
AI执行：规划路径 → 识别杯子位置 → 控制机械臂抓取 → 走到洗碗机 → 放置 → 返回

整个过程，用户只说了一句话。这就是Text-to-Action在物理世界的落地。

黄仁勋在2026年GTC上的判断：

“Text-to-Action的终极形态是具身智能。未来五年，我们会看到AI从‘帮你用电脑’进化到‘替你干活’——不只是处理信息，而是改造物理世界。”

五、为什么是现在爆发？

你可能会问：这个方向研究了很多年，为什么偏偏在2025-2026年爆发？

原因1：模型能力的“奇点”到来

2025年下半年，主流大模型在三个关键能力上实现了质的突破：

能力	之前	现在
工具调用	只能调1-2个，容易出错	能链式调用10+个工具，准确率>90%
长程记忆	20万Tokens，复杂任务记不住	100万+Tokens，能记住数小时的任务
自我纠错	出错后无法自主恢复	能看懂错误日志，尝试替代方案

原因2：协议标准化降低了接入门槛

2025年，MCP（Model Context Protocol）等协议成熟，AI调用外部工具不再是“每个工具写一套代码”，而是“一次开发，处处可用”。（在第三篇文章有提到，MCP（Model Context Protocol）是Anthropic推出的开放标准，可以让AI工具能像USB接口一样“即插即用”地连接各种外部服务或工具，目前数以万计的主流应用主动支持MCP协议，便于AI接入。）

原因3：开源项目跨越了“可用性鸿沟”

OpenClaw等开源项目，把原本需要技术团队才能搭建的智能体系统，变成了普通人也能一键部署的工具。当门槛足够低，用户量就会指数级增长。

原因4：具身智能技术成熟

2025-2026年，传感器成本下降、机械臂精度提升、大模型理解能力跃迁，三者叠加，让“自然语言控制机器人”从实验室走向真实场景。

六、小结

问题	答案
Text-to-Action 是什么？	自然语言描述目标，AI自主规划并执行多步操作，最终完成任务交付
从哪来？	2017年首尔大学《Text2Action》论文，用GAN+SEQ2SEQ让AI学习语言与动作的对应
演进了几个阶段？	萌芽期（GAN+RNN）→ 探索期（Transformer）→ 爆发期（大模型统一框架）
四个层次是什么？	L1数字操作、L2 API调用、L3外设控制、L4具身智能
为什么现在爆发？	模型能力跃迁 + 协议标准化 + 开源跨越可用性鸿沟 + 具身智能技术成熟

一句话总结：Text-to-Action是AI从“文字”到“执行”的范式跃迁。——不只是处理信息，而是改造现实。

下一篇预告

本篇我们讲了Text-to-Action的概念、演进和四个层次。下一篇，我们将深入解析引爆这场革命的开源项目——OpenClaw：它为什么能一个人开发、GitHub星标超Linux、让国内大厂集体围堵？它的技术架构、安全争议、产业影响，我们下篇见。

本文内容基于作者的开发经验和对官方文档的理解，仅供参考。技术工具、模型参数、定价等信息可能随时间变化，请以官方最新发布为准。如有不同见解，欢迎在评论区理性交流。

本文为原创内容，首发于微信公众号[林说AI]。未经本人书面授权，禁止任何形式的摘编、复制或用于商业用途，转载须注明出处。