红杉说AGI已经来了，但不是你想的那种AGI上周，红杉资本发布了一篇题为《2026: This is AGI》的文章。

上周，红杉资本发布了一篇题为《2026: This is AGI》的文章。

开头有一个很有意思的故事：多年前，红杉问一些顶尖研究员"你们怎么定义AGI"，研究员们面面相觑，最后给出了一个行业内的标准答案："well, we'll know it when we see it"（我们见到了就会知道）。

这个答案本身就是问题——AGI成了一个无法定义、无法验证的玄学概念。

但这次，红杉给了一个答案。他们说：AGI is here, now（AGI已经在这里了）。

不是遥远的未来，不是科幻电影里的场景。而是现在。

先说一个被忽略的定义问题

"AGI"这个词在AI圈子里已经被用滥了。

有人说GPT-4是AGI，有人说差得远。有人说AGI要通过图灵测试，有人说AGI要能自我改进。

争论来争论去，最后发现大家聊的根本不是同一个东西。

红杉这次做了一件很重要的事：把AGI从哲学概念拉回了功能定义。

他们给出的定义很朴素：

AGI is the ability to figure things out. That's it.

AGI就是"弄清楚事情的能力"。就这样。

什么意思？

一个能"弄清楚事情"的人，需要三样东西：

基础知识（学校里学的、书上看的）

推理能力（能把知识串联起来思考）

迭代能力（遇到问题能自己调整方向，再试）

对应到AI：

预训练（Pre-training）— 这是2022年ChatGPT时刻的核心

推理计算（Inference-time compute）— 这是2024年OpenAI o1的核心

长周期智能体（Long-Horizon Agents）— 这是2026年的主角

前两个我们已经有了。第三个，刚刚到来。

数据很漂亮，但这次不一样

METR（一个专注AI能力测量的研究机构）一直在追踪一个指标：AI能自主完成多长时间的任务。

结果是指数级的：每7个月翻一倍。

如果这个趋势持续：

2028年：AI能可靠地完成需要人类专家一天的任务

2034年：AI能可靠地完成需要一年的任务

2037年：AI能可靠地完成需要一个世纪的任务

"一个世纪"是什么概念？

20万项从未交叉参考过的临床试验

有史以来所有的客户支持工单，终于可以被挖掘出价值

整个美国税法，可以被重构得更合理

这些以前需要"成吨的人力"才能完成的事情，未来可能只需要"一群智能体"。

一个真实的例子：31分钟搞定招聘

红杉举了一个很具体的例子：

一个创始人让AI帮他找一个Developer Relations lead。

要求是：技术上要能赢得资深工程师的尊重，但又要真正喜欢用Twitter，而且要卖给平台团队。

AI做了什么？

先在LinkedIn搜"Developer Advocate"和"DevRel"，找到了几百个人

然后发现职位名说明不了问题，转向YouTube搜会议演讲

找到50+演讲者，筛选出互动量高的

再和Twitter交叉验证，筛掉那些不活跃的

最后缩小到3个人，进一步研究发现：

31分钟，创始人拿到了一个最优候选人名单。

AI没有按剧本走。它像一个真正的猎头一样：形成假设、测试、碰壁、调整方向，直到找到突破口。

这就是"figure things out"。

从"Talkers"到"Doers"

2023、2024年的AI应用，本质上是"Talkers"（说话的）。

它们很会聊天，很会回答问题，甚至很会写代码。但它们的局限是：单次对话。

你问一个问题，它回答一次。如果回答错了，你纠正它，它再回答一次。就这样。

2026年的AI应用，是"Doers"（做事的）。

它们可以：

持续工作数小时

自己发现错误并修正

不知道下一步该做什么时，自己判断

这就是Long-Horizon Agents的威力。

红杉给了个判断标准：Soon you'll be able to hire an agent（很快你就能"雇佣"一个智能体）。

不是让它"帮你做点什么"，而是像雇一个员工一样，给它一个目标，让它自己去搞定。

领域已经开始出现：

医学：OpenEvidence的Deep Consult充当专科医生

法律：Harvey的智能体充当律师助理

网络安全：XBOW充当渗透测试员

DevOps：Traversal的智能体充当SRE

招聘：Juicebox充当招聘专员

数学：Harmonic的Aristotle充当数学家

芯片设计：Ricursive的智能体充当芯片设计师

为什么现在是2026？

这个问题问得好。

既然Long-Horizon Agents这么厉害，为什么2025年不是AGI元年？

红杉的解释是：几周前，Claude Code和其他coding agents跨过了某个能力阈值。

翻译成人话：最近，coding agents突然变得"能用"了。

这背后有两个技术路径在同时起作用：

强化学习（Reinforcement Learning）：在训练过程中"教"模型保持专注

Agent Harness（智能体框架）：设计脚手架来规避模型已知限制（记忆转移、上下文压缩等）

前者是研究实验室的领域（OpenAI、Anthropic...），后者是应用层的战场（Manus、Claude Code、Factory's Droids...）。

两条路都走得通，而且都在加速。

说点冷静的

红杉的文章很乐观，甚至可以说是"布道"。

但作为从业者，我想泼一盆冷水：

第一，定义AGI是资本的事情，不是科学的事情。

红杉是投资机构，不是研究机构。他们给出的"功能定义"——"能搞定事情的AGI"，本质上是商业视角，不是学术标准。

学术上对AGI的定义要严格得多：需要跨领域推理、需要常识、需要自主性、需要...

但这些对商业决策者来说不重要。重要的是：能不能卖出去？能不能解决问题？

从这个角度看，红杉的定义是务实的。

第二，agents still fail（智能体还是会失败）。

红杉自己也承认：agents会产生幻觉、会丢失上下文、有时会自信地冲向完全错误的方向。

趋势是明确的，但距离"可靠"还有一段距离。

第三，从"能用"到"好用"是另一个指数曲线。

今天的coding agents可能能搞定30分钟的任务，但离人类工程师的"熟练程度"还有距离。

要达到"能替代一个初级工程师"的水平，可能需要更长的时间。

最后想说的话

AGI这个词被讨论了太久，久到大家都有点疲惫了。

但红杉这次的文章有一个价值：把AGI从"科幻"拉回了"功能" 。

AGI不是一个"有意识的人工智能"，不是"能统治世界的AI"。

AGI就是"能搞定事情的AI"。

这个定义可能不够性感，但很实用。

2026年，如果你问"AGI什么时候来"，红杉会说：已经来了。

只不过，它不是以你想象的方式来的——不是一次盛大的发布会，不是一个神奇的模型。

而是一群能持续工作、能自我纠正、能自主判断方向的智能体。

它们会在Coding领域先出现，然后是其他领域。

对从业者来说，真正重要的不是"AGI是不是来了"，而是：

你的领域，Long-Horizon Agents能解决什么问题？

你的产品，如何从"Talker"进化成"Doer"？

你的护城河，在agents能"搞定事情"的世界里，还剩下什么？

这些问题，比争论AGI的定义要有用得多。

AI是工具，不是信仰。AGI是里程碑，不是终点。