红杉说AGI已经来了,但不是你想的那种AGI

0 阅读7分钟

上周,红杉资本发布了一篇题为《2026: This is AGI》的文章。

开头有一个很有意思的故事:多年前,红杉问一些顶尖研究员"你们怎么定义AGI",研究员们面面相觑,最后给出了一个行业内的标准答案:"well, we'll know it when we see it"(我们见到了就会知道)。

这个答案本身就是问题——AGI成了一个无法定义、无法验证的玄学概念。

但这次,红杉给了一个答案。他们说:AGI is here, now(AGI已经在这里了)。

不是遥远的未来,不是科幻电影里的场景。而是现在。


先说一个被忽略的定义问题

"AGI"这个词在AI圈子里已经被用滥了。

有人说GPT-4是AGI,有人说差得远。有人说AGI要通过图灵测试,有人说AGI要能自我改进。

争论来争论去,最后发现大家聊的根本不是同一个东西。

红杉这次做了一件很重要的事:把AGI从哲学概念拉回了功能定义

他们给出的定义很朴素:

AGI is the ability to figure things out. That's it.

AGI就是"弄清楚事情的能力"。就这样。

什么意思?

一个能"弄清楚事情"的人,需要三样东西:

基础知识(学校里学的、书上看的)

推理能力(能把知识串联起来思考)

迭代能力(遇到问题能自己调整方向,再试)

对应到AI:

预训练(Pre-training)— 这是2022年ChatGPT时刻的核心

推理计算(Inference-time compute)— 这是2024年OpenAI o1的核心

长周期智能体(Long-Horizon Agents)— 这是2026年的主角

前两个我们已经有了。第三个,刚刚到来。


数据很漂亮,但这次不一样

METR(一个专注AI能力测量的研究机构)一直在追踪一个指标:AI能自主完成多长时间的任务。

结果是指数级的:每7个月翻一倍

如果这个趋势持续:

2028年:AI能可靠地完成需要人类专家一天的任务

2034年:AI能可靠地完成需要一年的任务

2037年:AI能可靠地完成需要一个世纪的任务

"一个世纪"是什么概念?

20万项从未交叉参考过的临床试验

有史以来所有的客户支持工单,终于可以被挖掘出价值

整个美国税法,可以被重构得更合理

这些以前需要"成吨的人力"才能完成的事情,未来可能只需要"一群智能体"。


一个真实的例子:31分钟搞定招聘

红杉举了一个很具体的例子:

一个创始人让AI帮他找一个Developer Relations lead。

要求是:技术上要能赢得资深工程师的尊重,但又要真正喜欢用Twitter,而且要卖给平台团队。

AI做了什么?

先在LinkedIn搜"Developer Advocate"和"DevRel",找到了几百个人

然后发现职位名说明不了问题,转向YouTube搜会议演讲

找到50+演讲者,筛选出互动量高的

再和Twitter交叉验证,筛掉那些不活跃的

最后缩小到3个人,进一步研究发现:

31分钟,创始人拿到了一个最优候选人名单。

AI没有按剧本走。它像一个真正的猎头一样:形成假设、测试、碰壁、调整方向,直到找到突破口。

这就是"figure things out"。


从"Talkers"到"Doers"

2023、2024年的AI应用,本质上是"Talkers"(说话的)。

它们很会聊天,很会回答问题,甚至很会写代码。但它们的局限是:单次对话

你问一个问题,它回答一次。如果回答错了,你纠正它,它再回答一次。就这样。

2026年的AI应用,是"Doers"(做事的)。

它们可以:

持续工作数小时

自己发现错误并修正

不知道下一步该做什么时,自己判断

这就是Long-Horizon Agents的威力。

红杉给了个判断标准:Soon you'll be able to hire an agent(很快你就能"雇佣"一个智能体)。

不是让它"帮你做点什么",而是像雇一个员工一样,给它一个目标,让它自己去搞定。

领域已经开始出现:

医学:OpenEvidence的Deep Consult充当专科医生

法律:Harvey的智能体充当律师助理

网络安全:XBOW充当渗透测试员

DevOps:Traversal的智能体充当SRE

招聘:Juicebox充当招聘专员

数学:Harmonic的Aristotle充当数学家

芯片设计:Ricursive的智能体充当芯片设计师


为什么现在是2026?

这个问题问得好。

既然Long-Horizon Agents这么厉害,为什么2025年不是AGI元年?

红杉的解释是:几周前,Claude Code和其他coding agents跨过了某个能力阈值

翻译成人话:最近,coding agents突然变得"能用"了。

这背后有两个技术路径在同时起作用:

强化学习(Reinforcement Learning):在训练过程中"教"模型保持专注

Agent Harness(智能体框架):设计脚手架来规避模型已知限制(记忆转移、上下文压缩等)

前者是研究实验室的领域(OpenAI、Anthropic...),后者是应用层的战场(Manus、Claude Code、Factory's Droids...)。

两条路都走得通,而且都在加速。


说点冷静的

红杉的文章很乐观,甚至可以说是"布道"。

但作为从业者,我想泼一盆冷水:

第一,定义AGI是资本的事情,不是科学的事情。

红杉是投资机构,不是研究机构。他们给出的"功能定义"——"能搞定事情的AGI",本质上是商业视角,不是学术标准。

学术上对AGI的定义要严格得多:需要跨领域推理、需要常识、需要自主性、需要...

但这些对商业决策者来说不重要。重要的是:能不能卖出去?能不能解决问题?

从这个角度看,红杉的定义是务实的。

第二,agents still fail(智能体还是会失败)。

红杉自己也承认:agents会产生幻觉、会丢失上下文、有时会自信地冲向完全错误的方向。

趋势是明确的,但距离"可靠"还有一段距离。

第三,从"能用"到"好用"是另一个指数曲线。

今天的coding agents可能能搞定30分钟的任务,但离人类工程师的"熟练程度"还有距离。

要达到"能替代一个初级工程师"的水平,可能需要更长的时间。


最后想说的话

AGI这个词被讨论了太久,久到大家都有点疲惫了。

但红杉这次的文章有一个价值:把AGI从"科幻"拉回了"功能"

AGI不是一个"有意识的人工智能",不是"能统治世界的AI"。

AGI就是"能搞定事情的AI"。

这个定义可能不够性感,但很实用。

2026年,如果你问"AGI什么时候来",红杉会说:已经来了。

只不过,它不是以你想象的方式来的——不是一次盛大的发布会,不是一个神奇的模型。

而是一群能持续工作、能自我纠正、能自主判断方向的智能体。

它们会在Coding领域先出现,然后是其他领域。

对从业者来说,真正重要的不是"AGI是不是来了",而是:

你的领域,Long-Horizon Agents能解决什么问题?

你的产品,如何从"Talker"进化成"Doer"?

你的护城河,在agents能"搞定事情"的世界里,还剩下什么?

这些问题,比争论AGI的定义要有用得多。

AI是工具,不是信仰。AGI是里程碑,不是终点。