智能体的崛起(一):Text-to-Action——AI从“生成”到“执行”

0 阅读9分钟

前面五篇文章,我们深入探讨了Claude Code和Codex这类AI编程工具。它们能自动读文件、写代码、执行命令——本质上,它们已经在做一件事:把“文字指令”变成“编程动作”。

但这只是开始。AI正在从“生成内容”,进化到“执行任务”。 不只是帮你写代码,还要替你用电脑、控制设备、操作机器人。

这就是Text-to-Action。本篇是这个系列的第一篇,我们来聊聊这个概念是什么、从哪来、往哪去。

一、从“会说”到“会做”

回顾一下你最初用DeepSeek的方式:

你说:“帮我写一个微信小程序登录页”
DeepSeek返回:生成代码
你执行:复制代码,创建文件,粘贴进去,运行,看报错,……

这是典型的Text-to-Text模式。

而Claude Code/Codex的模式是:

你说:“帮我创建一个微信小程序登录页”
Claude Code返回:搜索项目结构、读取相关文件、创建四个页面文件、在app.json中注册、输出完成结果

这是Text-to-Code模式。

Text-to-Action不局限于编程,而是让AI能操作整个电脑,甚至控制物理设备:

你说:“把桌上的杯子放到洗碗机里”
AI返回:规划路径、识别杯子位置、控制机械臂抓取、走到洗碗机、放置

从“生成”到“编程执行”,再到“通用执行”,再到“物理操作”——这就是Text-to-Action的范式跃迁

二、Text-to-Action是什么?

简单定义:用户用自然语言描述目标,AI自主规划并执行多步操作,最终完成任务交付。

Text-to-Action的本质:把“人用电脑/机器”的过程,变成“AI替人用电脑/机器”。你只需要告诉它“做什么”,它自己搞定“怎么做”。

学术起源:2017年的《Text2Action》论文

Text-to-Action这个方向,最早可以追溯到2017年

当年10月,韩国首尔大学安慧敏(Hyemin Ahn)团队在arXiv上发表了论文  《Text2Action: Generative Adversarial Synthesis from Language to Action》 ,后被2018年IEEE国际机器人与自动化大会(ICRA)收录。

他们做了什么?

让AI通过观看YouTube视频,学习人类语言和动作之间的对应关系:

  • 从MSR-VTT(微软视频描述数据集)中提取了29,770对“动作+文字描述”数据

  • 使用生成对抗网络(GAN)+序列到序列(SEQ2SEQ)模型,让AI学习语言与动作的关联

  • 最终效果:输入一句文字(如“举起右手”),AI能生成对应的人体动作序列,并能迁移到Baxter机器人上执行

【小编注:目前应用很火的旧图翻新使用的图像生成对抗网络GAN与这里的GAN原理相同(都是生成器+判别器的对抗训练),但应用场景不同,一个是生成图像内容,一个是生成人体动作序列】

研究意义:这是第一次用YouTube视频来学习日常语言日常动作之间的关系,为后来的Text-to-Action研究奠定了基础。

值得一提的是,几乎在同一时期,Google发表了 《Attention Is All You Need》 (Transformer论文)。两者在2017年交汇,一个研究“让AI动手”,一个研究“让AI听懂”——共同开启了通向Text-to-Action的道路。

技术演进:从GAN到大模型

从2017年到现在,Text-to-Action技术经历了三个关键阶段:

🌱萌芽期(2017-2023)

  • 技术特点:GAN+RNN为主,语言理解有限
  • 代表工作:首尔大学《Text2Action》论文

🚀探索期(2024-2025)

  • 技术特点:Transformer替代RNN,语言理解能力跃升
  • 代表工作:AutoGPT、XAgent

🔥爆发期(2025-2026)

  • 技术特点:大模型统一语言理解和动作执行,通过工具调用实现通用操作
  • 代表工作:OpenClaw、Claude Cowork

最关键的变化:OpenClaw等项目的出现,不再需要专门训练“动作模型”,而是直接用大模型的工具调用(Function Calling) 能力来完成电脑操作。语言理解和动作执行被统一到了一个大模型里。

三、大模型LLM与智能体在Text-to-Action中分工

你可能会有疑问:大模型不是只能输出文本吗?那“Action”是谁执行的?

答案是:大模型负责“思考”和“规划”,智能体负责“执行”和“反馈”。

Text-to-Action的真正机制:用户输入文字 → 智能体→大模型规划动作 → 智能体执行动作 → 循环,直到任务完成。

大模型输出的是结构化的指令(通常是JSON格式,或者函数调用),不是自然语言描述,如下面的JSON数据: 

{

  "action": "send_message",

  "params": {

    "platform": "wechat",

    "target": "工作群",

    "content": "今日天气:晴,25°C"

  }

}

智能体收到后:

  • 解析JSON → 识别action:      "send_message"
  • 提取参数 → platform: "wechat", target: "工作群"
  • 调用微信API或模拟操作 → 发送消息
  • 返回结果给大模型 → “消息已发送”

智能体解析这些指令,调用相应的工具(打开浏览器、发送消息、读写文件),然后将执行结果返回给大模型。

如果让大模型输出“请调用微信发送消息”,智能体需要解析这句话,但这不是智能体的强项,可能会解析错误,造成Action执行失败。

四、Text-to-Action的四个演进层次

Text-to-Action不只是“替你用电脑”。它的终极形态,是控制物理世界:

L1:数字世界操作(✅已成熟)

  • 操作软件、浏览器、文件系统
  • 代表:OpenClaw、Claude Code

L2:API调用(✅已成熟)

  • 调用外卖、打车、订票等网络服务
  • 代表:AutoGPT、GPT Actions

L3:外设控制(🔄正在普及)

  • 控制打印机、智能家居、工业设备
  • 代表:miclaw(小米)、Home Assistant

L4:具身智能(🔄实验阶段)

  • 控制机器人、机械臂、自动驾驶
  • 代表:特斯拉Optimus、Figure 01、宇树H1 2.0

关键洞察:从L1到L4,AI的控制范围从“数字界面”扩展到“物理世界”。Text-to-Action的最终形态,是让AI成为能替我们做事的“具身智能体”。

L3:智能家居控制——已成熟

小米的miclaw已经实现了这一层。用户通过自然语言控制全屋设备:

你在微信里发:“我下班了,准备回家”
AI:打开空调(26度)、打开热水器、关闭窗帘、播放音乐

这不是“替你用电脑”,而是“替你操作物理设备”。

L4:具身智能机器人——正在突破

一个真实的例子(2026年2月):

用户对特斯拉Optimus说:“把桌上的杯子放到洗碗机里”
AI执行:规划路径 → 识别杯子位置 → 控制机械臂抓取 → 走到洗碗机 → 放置 → 返回

整个过程,用户只说了一句话。这就是Text-to-Action在物理世界的落地。

黄仁勋在2026年GTC上的判断

“Text-to-Action的终极形态是具身智能。未来五年,我们会看到AI从‘帮你用电脑’进化到‘替你干活’——不只是处理信息,而是改造物理世界。”

五、为什么是现在爆发?

你可能会问:这个方向研究了很多年,为什么偏偏在2025-2026年爆发?

原因1:模型能力的“奇点”到来

2025年下半年,主流大模型在三个关键能力上实现了质的突破:

能力之前现在
工具调用只能调1-2个,容易出错能链式调用10+个工具,准确率>90%
长程记忆20万Tokens,复杂任务记不住100万+Tokens,能记住数小时的任务
自我纠错出错后无法自主恢复能看懂错误日志,尝试替代方案

原因2:协议标准化降低了接入门槛

2025年,MCP(Model Context Protocol)等协议成熟,AI调用外部工具不再是“每个工具写一套代码”,而是“一次开发,处处可用”。(在第三篇文章有提到,MCP(Model Context Protocol)是Anthropic推出的开放标准,可以让AI工具能像USB接口一样“即插即用”地连接各种外部服务或工具,目前数以万计的主流应用主动支持MCP协议,便于AI接入。)

原因3:开源项目跨越了“可用性鸿沟”

OpenClaw等开源项目,把原本需要技术团队才能搭建的智能体系统,变成了普通人也能一键部署的工具。当门槛足够低,用户量就会指数级增长。

原因4:具身智能技术成熟

2025-2026年,传感器成本下降、机械臂精度提升、大模型理解能力跃迁,三者叠加,让“自然语言控制机器人”从实验室走向真实场景。

六、小结

问题答案
Text-to-Action 是什么?自然语言描述目标,AI自主规划并执行多步操作,最终完成任务交付
从哪来?2017年首尔大学《Text2Action》论文,用GAN+SEQ2SEQ让AI学习语言与动作的对应
演进了几个阶段?萌芽期(GAN+RNN)→ 探索期(Transformer)→ 爆发期(大模型统一框架)
四个层次是什么?L1数字操作、L2 API调用、L3外设控制、L4具身智能
为什么现在爆发?模型能力跃迁 + 协议标准化 + 开源跨越可用性鸿沟 + 具身智能技术成熟

一句话总结:Text-to-Action是AI从“文字”到“执行”的范式跃迁。——不只是处理信息,而是改造现实。

下一篇预告

本篇我们讲了Text-to-Action的概念、演进和四个层次。下一篇,我们将深入解析引爆这场革命的开源项目——OpenClaw:它为什么能一个人开发、GitHub星标超Linux、让国内大厂集体围堵?它的技术架构、安全争议、产业影响,我们下篇见。

本文内容基于作者的开发经验和对官方文档的理解,仅供参考。技术工具、模型参数、定价等信息可能随时间变化,请以官方最新发布为准。如有不同见解,欢迎在评论区理性交流。

本文为原创内容,首发于微信公众号[林说AI]。未经本人书面授权,禁止任何形式的摘编、复制或用于商业用途,转载须注明出处。