Human Tool、HumanLayer、MCP、WebMCP 这一整条线,正式把人作为生物token调用

0 阅读5分钟

如果只看标题,AI 把人类写成函数 很像一句为了传播刻意夸张的文案。

但如果把这两年的几个节点连起来看,它其实描述的是一个越来越具体的软件抽象变化:

  • 模型先接任务
  • 模型自己调工具
  • 模型自己跑 workflow
  • 只在关键节点把人叫出来
  • 人交回结果以后,系统继续跑

也就是说,人类正在从 orchestrator 退成 callable component。

这里的 callable component 如果翻成不那么拗口的话,大概就是:

系统里一个可被调用的执行组件。

我这次想写的,不是“AI 会不会取代人类”这种老问题,而是另一个更工程化的问题:

人什么时候开始,从系统外部的操作者,变成系统内部的一个可调用节点?

1. 这件事已经同时被论文、产品和框架写出来了

1.1 论文在命名:Human Tool

2026 年 2 月,arXiv 上出现了一篇论文:

Human Tool: An MCP-Style Framework for Human-Agent Collaboration

human-tool-paper.png

这个命名本身就已经说明问题了。

它不再是“让人类监督 AI”,而是把人类直接抽象成一种可调用能力。

1.2 产品在卖:HumanLayer

YC 投的 HumanLayer 也把话说得很直白。

它的核心卖点就是:

  • software can contact humans
  • get feedback / input / approval
  • supervise autonomous agents

如果把这件事翻成工程语言,它其实就是在告诉你:

human_response 这件事,已经开始被产品化、接口化、流程化。

1.3 框架在支持:interrupt() -> human review -> resume

如果你看 LangGraph、Letta、Knock 这类 human-in-the-loop 文档,会发现一个稳定模式:

LLM
 -> tool call
 -> interrupt()
 -> human review / approval / edit
 -> resume
 -> next step

这意味着“把人插回流程”这件事,不再是临时补丁,而开始进入框架默认能力。

2. 为什么这对开发者是一个值得提前建立直觉的变化

因为这不是内容表达方式变了,而是系统边界在变。

过去几年我们经历的是一条很连续的抽象升级链:

  1. prompt 把意图文本化
  2. function calling 把外部能力函数化
  3. MCP 把工具、资源、提示和边界协议化
  4. workflow 把执行顺序状态机化
  5. skills 把经验封装化
  6. A2A 把 agent 间协作协议化

现在轮到人。

也就是说,原来还留在“组织、审批、现实判断、线下执行”里的人工部分,正在被一步步吸进系统抽象。

这也是为什么那句黑色幽默会成立:

我们原本想做的是 human-centered AI,做着做着,做成了 AI-centered human orchestration。

3. 人类在真实系统里,正在承担哪些“接口位”

如果不讲抽象比喻,而只看现在已经比较像接口的位置,大概有这几类:

人类动作真实接口函数名称实际承担的意义
审批、授权、签字require_approval / needs_approval / default_requires_approval把组织权限留在人身上
给模型纠错、选优approve / edit / reject给系统提供高价值偏好判断
处理中断和例外interrupt() / Command(resume=...)兜底灰区、扯皮和异常分支
进入现实世界执行human_as_tool() / requiresHumanInput() / resumeToolExecution()把身体、关系、现场能力接进系统

所以如果你问一句最黑色幽默的话:

人类在下一代 agent 系统里最稳定、最不可替代的岗位职责是什么?

答案可能是:

背锅。

4. 这条时间线比很多人想的更连续

如果把时间线拉开,你会发现这不是突然出现的新名词,而是一条很顺的演化链:

时间节点本质变化
2022.11GPT-3.5 / ChatGPT先解决“会不会回答”
2023.03Plugins模型开始系统化接工具
2023.06Function Calling外部能力开始函数化
2023.11Assistants / Tool Use模型更稳定地编排工具和文件
2024-2025Search / Deep ResearchAI 从回答走向异步推进任务
2024.11 起MCP外部世界接线协议化
2025.04-06A2A + Linux Foundationagent 开始连 agent
2025.10 起Skills人的经验开始被封装复用
2026.02Human Tool人本身被正式抽象成可调用能力
2026 早期WebMCP网页开始尝试直接向 agent 暴露能力

这条线可以浓缩成一句话:

我们不是突然把人写成函数,而是一路把外部世界写成了函数。

5. 为什么 MCP、WebMCP、A2A 还会继续往前走

因为 MCP 要统一的不是“再包一个 API”,而是 agent 与外部世界交互时的边界条件。

只要 agent 还要碰:

  • 文件
  • 数据库
  • 浏览器
  • 用户补充输入
  • 审批
  • 可恢复任务

这种统一接线协议就不会消失。

WebMCP 更值得开发者盯住,因为它在试图推进一件更大的事:

以前网页主要是给人点的。
以后网页可能同时是给 agent 调的。

6. 更黑的一层:身体接口也可能进调用链

如果只讨论审批和工作流,这个趋势还停留在软件层。

但 MouthPad / MouthIO、脑机接口、神经语音神经假体、生物计算这些线索放在一起,会出现另一条更极端的推演方向:

系统调用的,可能不再只是“你的判断”,而是“你的身体本身”。

所以这篇文章最后才会落到那个带黑色幽默的结论:

也许我们这种碳基系统,真的是一种便宜、低功耗、可并行、还能顺便背锅的生物 token。

mouthpad-mit-short.png

7. 为什么「向AI弃权」会持续追这个方向

因为这条线同时满足三件事:

  1. 技术圈还没把它讲透
  2. 普通读者已经会被它影响
  3. 它会持续成为未来 12-24 个月的检索关键词

如果你后面也在追 Human Tool / HumanLayer / MCP / WebMCP 这条线,建议先收藏。

这也是「向AI弃权」接下来会持续跟的一条技术线。

如果你想看那种既讲结构、又尽量说人话的 AI 内容,后面应该还会继续遇到这个名字。