启迪未来:最值得一看的2025年AI进展复盘

80 阅读12分钟

北京时间12月21日,AI大神Andrej Karpathy在其个人网站上发布了一篇Blog《2025年大语言模型年度回顾》。在这篇文章中,Andrej盘点了2025年AI领域的重大突破以及给行业带来的范式变革。本文取其精要加以理解诠释,呈奉各位明公一览。

毫无疑问,2025 年是大语言模型(LLM) 蓬勃发展、成果丰硕的一年。Andrej认为有几项突破是值得重点关注、且略带惊喜的 “范式变革”。这些突破重塑了行业格局,在概念层面也引领了未来,颇具启发意义。

1. RLVR(基于可验证奖励的强化学习):大模型训练流程的范式变革

2025年之前,所有大模型生产商的大模型训练流程遵循如下范式:

预训练(PT) --> 监督微调(SFT) --> 基于人类反馈的强化学习(RLHF)

在相当长的一段时间里,这是一套稳定且经过验证的量产级大语言模型训练方案。

2025年,基于可验证奖励的强化学习(RLVR) 顺势崛起,成为该流程中事实上新增的核心环节。形成了大模型训练流程新范式:

预训练(PT) --> 监督微调(SFT) --> 基于人类反馈的强化学习(RLHF) --> 基于可验证奖励的强化学习(RLVR)

RLVR的核心价值:使大模型具备推理能力
通过在多类场景中(例如数学题、代码谜题场景),让大语言模型针对可自动验证的奖励机制开展训练,模型会自主进化出一种在人类看来近似 “推理” 的策略。它们学会将问题拆解为多步中间计算,同时掌握多种反复推演、试错求解的方法(相关案例可参考深度求索发布的 R1 论文)。这类推理策略很难通过此前的范式实现,原因在于我们无法明确界定大语言模型的最优推理路径与纠错方式,模型必须通过对奖励目标的优化,自主探索出适配自身的解决方案。

与监督微调(SFT)和基于人类反馈的强化学习(RLHF)两个计算成本较低、训练周期较短的环节不同,RLVR 依托客观且无法被操纵的奖励函数展开训练,因此支持更长周期的优化过程。实践证明,RLVR 的投入产出比(算力成本与模型能力提升的比值)极高,这也使其消耗了原本计划用于预训练的大量算力资源。

因此,2025 年大语言模型的能力突破,很大程度上源于各大实验室对这一新环节的深度挖掘。整体来看,当年的模型参数量级基本持平,但 RLVR 的训练时长大幅延长。此外,这一新环节还带来了一项独特优势:我们新增了一个调节模型能力的关键变量(以及与之对应的缩放定律),即通过生成更长的推理链、增加模型的 “思考时长”,来实现模型能力与推理阶段算力投入的正相关调控。OpenAI 于 2024 年末推出的 o1 模型,是RLVR 技术的首次落地验证;而 2025 年初发布的 o3 模型,则成为行业公认的转折点 —— 人们能直观感受到该技术带来的质变。

2. 幽灵 vs 动物:参差不齐的智能

对于2025年大语言模型所达到的智能“形态”,Andrej提供了一种直观的理解方式:我们并非在 “培育或进化动物”,而是在 “召唤幽灵”。

大语言模型技术栈的方方面面都截然不同。无论是神经架构、训练数据、训练算法,还是尤为关键的优化目标,因此我们在智能领域催生的产物也与动物智能大相径庭,若用研究动物的视角去看待这类智能体,显然并不恰当。

从监督机制的本质来看,动物神经网络的优化目标是为了在丛林环境中保障族群的生存;而大语言模型的神经网络,其优化方向则是模仿人类文本、在数学谜题中获取奖励,以及在大语言模型竞技场(LLM Arena)中赢得人类的喝彩。

image.png

在可验证领域,基于可验证奖励的强化学习(RLVR)有了用武之地。大语言模型在这些领域的能力出现了 “爆发式跃升”,整体呈现出一种颇为有趣的参差不齐的性能特征。它们既像博古通今的天选之子,又像认知能力存在缺陷的懵懂少年;上一秒还展现出超凡的解题能力,下一秒就可能被越狱攻击蒙骗,进而导致数据泄露。

Benchmark的崩塌

2025年Andrej对各类Benchmarks(基准测试)的态度变得愈发漠然,也彻底失去了信任。核心症结在于:基准测试的设计本质上就属于可验证环境,因此极易被 RLVR 技术 “钻空子”,即便是借助合成数据生成技术实现的简化版 RLVR 也能轻易应对。在这些“跑分竞赛”的常规操作中,各大实验室的团队总会刻意构建出与基准测试在嵌入空间中相近的训练环境,针对性地 “补齐短板” 以覆盖测试场景。如今,在测试集上直接训练模型,已然成了一门全新的 “艺术”。

试想一下:一个在所有基准测试中都表现顶尖的模型,却依然无法实现通用人工智能(AGI),这会是一种怎样的景象?

3. Cursor:一种LLM应用的全新形式

Andrej认为 Cursor 最值得关注的一点(除了它今年的爆发式崛起之外),是它令人信服地揭示了大语言模型应用的一个全新层级:人们开始热议 “面向各类场景的 Cursor 变体”(即 “Cursor for X”)。像 Cursor 这样的大语言模型应用,会针对特定垂直领域,对大语言模型的调用进行整合与编排。具体体现在以下方面:

  • 开展上下文工程的设计与优化
  • 在后台将多次大语言模型调用编排为日益复杂的有向无环图(DAG),并在性能与成本之间进行精细的平衡取舍
  • 为参与人机协同流程的用户,提供专属的应用功能界面(GUI)

基座与应用的分野

2025年,行业内围绕这一新应用层级的 “技术空间” 展开了大量讨论。大语言模型实验室会包揽所有应用的开发吗?还是说,大语言模型应用领域仍存在广阔的蓝海市场?Andrej认为:大语言模型实验室的定位,会逐渐倾向于培养出具备通用能力的 “大学生”;而大语言模型应用开发者,则会通过提供私有数据、传感器、执行器以及反馈循环,将这些 “通用型人才” 进行整合、微调,最终将其转化为特定垂直领域中可落地部署的 “专业团队”。

4. Claude Code:最成功的AI智能体

Claude Code首次令人信服地展示出了LLM智能体(LLM Agent)的应有形态:它能够以循环迭代的方式,将工具调用与推理逻辑串联起来,实现复杂问题的持续求解。

此外,Claude Code最令人关注的一点是它可以直接运行在用户的个人电脑上,并且能够接入你设备中的私有环境、数据与上下文。而OpenAI此前的思路存在偏差:其早期的代码模型(Codex)与智能体相关研发,都聚焦于基于 ChatGPT 编排的云端容器化部署方案,而非简单直接的本地主机(localhost)部署。

尽管云端运行的智能体集群听起来像是通用人工智能(AGI)的终极形态,但当前我们正处于一个智能水平参差不齐、技术迭代节奏相对平缓的过渡阶段。在这样的背景下,让智能体直接运行在开发者的个人电脑上,其实具有更高的实际价值。

需要明确的是,真正关键的区别并不在于 “人工智能的运行载体”(无论云端、本地或其他环境),而在于其他一系列核心要素:比如已启动运行的本地电脑硬件、预装的各类软件、专属的上下文信息、私有数据、密钥凭证、系统配置,以及由此实现的低延迟交互体验。

Anthropic准确把握了这一优先级排序,将Claude Code打包为一款简洁易用、体验出色的命令行界面(CLI)工具。这款工具彻底改变了人们对人工智能的固有认知:它不再是像谷歌那样需要访问的网站,更像是一个栖息在你电脑中的小精灵 / 数字幽灵。这构成了一种全新且独特的人工智能交互范式。

5. 氛围编程(Vibe Coding):Code is cheap

2025年,人工智能跨过了一道关键的能力门槛:人们仅需用自然语言,就能打造各类功能亮眼的程序。 Andrej称之为Vibe Coding(氛围编程)。尽管这只是Andrej在社交平台上随口创造的一个词汇,但如今它已经火遍全网。有了氛围编程,编程不再是受过专业训练的技术人员的专属技能,而是任何人都能上手的事。与以往所有技术都截然不同,大语言模型给普通人带来的益处,远远超过了专业人士、企业和政府机构。

氛围编程不仅让普通人得以叩响编程的大门,也让专业技术人员得以开发出大量原本无缘问世的 “氛围编程” 软件。毕竟代码突然变得 “零成本”:可以随用随建、灵活修改,用完即弃也毫不可惜。

氛围编程,必将重塑软件开发的版图,改写相关职业的定义。

6. Nano Banana:大模型GUI的初蒙时态

谷歌 Gemini Nano Banana 是 2025 年最令人惊叹、具有范式变革意义的模型之一。在Andrej看来,大语言模型堪称下一代核心计算范式,其地位堪比 20 世纪七八十年代的计算机。基于此,我们将见证一系列创新的涌现,背后的驱动逻辑与当年计算机行业的创新浪潮如出一辙。我们会迎来个人计算的等效形态、认知核心微控制器,以及智能体互联网等全新事物。

具体到用户界面与用户体验(UI/UX)层面,当前与大语言模型的 “聊天式交互”,其实有点像 20 世纪 80 年代通过计算机控制台输入指令的操作模式。文本是计算机(以及大语言模型)原生且偏好的数据表达形式,但对人类而言却并非如此 —— 尤其是在输入环节。事实上,人们并不喜欢阅读大量文本,这种信息获取方式耗时又费力。相反,人类更倾向于通过视觉化、空间化的形式接收信息,这也是图形用户界面(GUI)能在传统计算领域应运而生的原因。同理,大语言模型也应当用人类偏好的形式与我们交互,比如生成图像、信息图表、幻灯片、白板手稿、动画或视频、网页应用等。

当然,目前这类交互的初级形态已经出现,比如表情符号和标记语言(Markdown)—— 它们通过标题、加粗、斜体、列表、表格等元素,对文本进行视觉化排版与美化,让信息更易于理解。但真正的问题是:谁来打造真正的大语言模型图形用户界面? Nano Banana 正是这一未来形态的首个早期雏形。值得强调的是,它的亮点绝不仅限于图像生成能力本身,更在于其将文本生成、图像生成与世界知识深度融合,所有能力都内嵌于模型权重之中,形成了协同增效的合力。

7. 总结

2025 年是大语言模型领域激动人心且充满意外之喜的一年。大语言模型正在演变为一种全新的智能形态:它们的聪明程度远超预期,同时又在很多方面笨得超乎想象。但无论如何,其应用价值已经极为可观。即便以当前的能力水平来看,整个行业对其潜力的挖掘恐怕还不足 10%。与此同时,领域内仍有无数创意构想亟待实践,从概念层面来看,这一赛道依旧充满无限可能。大语言模型领域既会迎来持续高速的发展,同时也仍有大量艰巨的工作亟待推进。准备好迎接这场变革吧。2026年,加油,继续狂飙在人工智能的康庄大道上!

附注:

英文缩写英文全称中文译名
LLMLarge Language Model大语言模型
PTPre-Training预训练
RLVRReinforcement Learning from Verifiable Rewards基于可验证奖励的强化学习
SFTSupervised Fine-Tuning监督微调
RLHFReinforcement Learning from Human Feedback基于人类反馈的强化学习

来源:karpathy.bearblog.dev/year-in-rev…