随着2025年接近尾声,我想回顾一下这一年大语言模型领域的一些最重要的发展,反思仍然存在的局限性和尚未解决的问题,并分享一些对未来可能走向的思考。
正如我每年常说的,2025年对大语言模型和AI来说是极为丰硕的一年,今年,进步丝毫没有饱和或放缓的迹象。
1. 推理之年、RLVR与GRPO
有许多我想探讨的有趣话题,但让我们按时间顺序从2025年1月开始。
扩展仍然有效,但实际上并未改变大语言模型(LLM)在实际应用中的行为或感受(唯一的例外是 OpenAI 新发布的 o1,它增加了推理痕迹)。因此,当 DeepSeek 在 2025 年 1 月发布其 R1 论文,展示了可以通过强化学习发展出类似推理的行为时,这确实是一个重大突破。(在大语言模型的语境中,推理是指模型解释其答案,而这一解释本身通常能提高答案的准确性。)
*图1:一个简短回应和一个包含中间步骤的较长回应,这是推理模型通常生成的。
1.1 DeepSeek时刻
DeepSeek R1由于各种原因受到了很多关注:
首先,DeepSeek R1作为开源权重模型发布,表现非常好,并且与当时最好的专有模型(ChatGPT、Gemini等)相当。
其次,DeepSeek R1 论文促使许多人,尤其是投资者和记者,重新审视了较早的 DeepSeek V3 论文(2024年12月)。这进而导致了一个修正后的结论:尽管训练最先进的模型仍然昂贵,但其成本可能比此前预想的便宜一个数量级,估算值更接近 500 万美元,而非 5 亿或 50 亿美元。
图2:来自 DeepSeek V3 论文 的表格,估计训练 671B 参数 DeepSeek V3 模型的成本。
DeepSeek R1 补充材料 估计在DeepSeek V3基础上训练DeepSeek R1模型还需要花费29.4万美元,这再次远低于所有人的预期。
@@@换行符_6@@@
图3:来自DeepSeek R1论文的表格 补充材料 估计在DeepSeek V3基础上训练R1模型的成本。
当然,500万美元的估算存在许多注意事项。例如,它仅涵盖了最终模型运行的计算信用点成本,但并未计入研究人员薪资以及与超参数调优和实验相关的其他开发费用。
第三,也是最有趣的是,论文提出了具有可验证奖励的强化学习 (RLVR),使用GRPO算法,作为一种新的(或至少是修改过的)算法方法,用于开发所谓的推理模型并在后训练期间改进LLMs。
图4:强化学习如何/何时应用的广泛概述。在此概述中,我跳过许多细节,但感兴趣的读者可以在我LLM推理中强化学习的现状文章中阅读更多。
到目前为止,诸如监督指令微调(SFT)和基于人类反馈的强化学习(RLHF)等训练后方法,虽然仍是训练流程中的重要部分,但受限于需要昂贵的书面回复或偏好标签。(当然,也可以用其他大语言模型合成生成这些数据,但这有点类似于鸡生蛋还是蛋生鸡的问题。)
DeepSeek R1 和 RLVR 之所以重要,是因为它们允许我们在大量数据上对大语言模型进行后训练,这使它们成为在后训练期间通过扩大计算规模(给定可用的计算预算)来改善和释放能力的绝佳候选者。
RLVR中的V代表“可验证”,这意味着我们可以使用确定性方法来分配正确性标签,而这些标签足以让大语言模型学习复杂的问题解决。(典型类别包括数学和代码,但也可以将这一理念扩展到其他领域。)
图5: 一个可验证奖励的简单示例。
我不想在此过多陷入技术细节,因为我希望在年度回顾文章中涵盖其他方面。关于推理大语言模型和RLVR,整篇文章或书籍都可以写。例如,如果您想了解更多,请查看我之前的文章:
[
理解推理大语言模型
·
2025年2月5日
阅读全文](magazine.sebastianraschka.com/p/understan…)
[
大语言模型推理中强化学习的现状
·
2025年4月19日
阅读全文](magazine.sebastianraschka.com/p/the-state…)
综上所述,今年大语言模型的发展主要由使用RLVR和GRPO的推理模型主导。
基本上,每家大型开源或专有大模型开发者都已在DeepSeek R1之后推出了其模型的推理(常被称为“思考”)变体。
1.2 大语言模型重点
如果我要简洁地总结每年大语言模型的发展重点,而不仅仅是扩展架构和预训练计算量,我的列表会是这样:
- 2022 RLHF + PPO
- 2023 LoRA SFT
- 2024 中期训练
- 2025 RLVR + GRPO
预训练仍然是必不可少的基础。此外,RLHF(通过PPO算法)当然是我们在2022年最初推出ChatGPT模型的原因。
2023年,人们重点关注LoRA及类似的高效参数微调技术,以训练小型定制化大语言模型。
图6:专有和开放权重LLM开发多年来的部分重点领域。请注意,这是累积性的,例如RLHF + PPO仍然相关并被使用。然而,它已不再是最热门讨论的话题。
随后,在2024年,所有主要实验室都开始通过专注于合成数据、优化数据组合、使用领域特定数据以及添加专门的长上下文训练阶段,使其(预)训练流程更加复杂。我在2024年的文章中总结了这些不同的方法(当时我将这些技术归类于预训练,因为“中训练”一词当时尚未被提出):
当时,我认为这些属于预训练技术,因为它们使用的是相同的预训练算法和目标。如今,这些在通用数据常规预训练之后进行的、略微更专业化的预训练阶段,通常被称为“中训练”(作为常规预训练与后训练——包括SFT、RLHF以及现在的RLVR——之间的桥梁)。
那么,你可能会好奇接下来会怎样?
我认为明年我们将看到(甚至)更多对RLVR的关注。目前,RLVR主要应用于数学和代码领域。
下一步的逻辑步骤是,在RLVR训练中不仅将最终答案的正确性作为奖励信号,同时也要评估大语言模型的解释过程。过去多年来,人们已在“过程奖励模型”(PRMs)这一研究标签下做过类似尝试。然而,其成效尚未十分显著。例如,如DeepSeek R1论文中所述:
4.2. 不成功的尝试
[...] 总而言之,尽管 PRM 在重新排列模型生成的前 N 个响应或辅助引导搜索方面展现出良好能力(Snell 等人,2024),但在我们的大规模强化学习实验过程中,其优势相对于所带来的额外计算开销而言是有限的。
然而,查看最近发布的 DeepSeekMath-V2 论文,该论文上个月发布,且我在上一篇文章中讨论过 从 DeepSeek V3 到 V3.2:架构、稀疏注意力与 RL 更新),我认为未来我们将看到更多将“解释评分”作为训练信号的做法。
目前对解释进行评分的方式涉及使用第二个大语言模型。这指向了我所看到的RLVR的另一个方向:将其扩展至数学和编程之外的其他领域。
那么,如果你今天问我2026年和2027年的前景如何,我会说以下几点:
- 2026 RLVR扩展及更多推理时扩展
- 2027 持续学习
除了上述RLVR扩展外,我认为2026年将更侧重于推理时扩展。推理时扩展指的是我们在训练结束后,让大语言模型生成答案时投入更多时间和成本,但这将大有裨益。
推理扩展不是一个新范式,LLM平台已经在底层使用某些技术。这是延迟、成本和响应准确性之间的权衡。然而,在某些应用中,准确性比延迟和成本更重要,极端的推理扩展完全值得。例如,正如最近的 DeepSeekV2-Math paper 所示,它将模型推向了挑战性数学竞赛基准的黄金级表现。
图7:两种推理时扩展方法的组合:自一致性和自修正。额外的自修正迭代提高了准确率。注释图来自 DeepSeekMath-V2 论文。自一致性和自修正在我的 Build A Reasoning Model (From Scratch) 书籍的第4章和第5章中有所涵盖。
同事们今年也频繁讨论持续学习。简而言之,持续学习指的是在不从头重新训练的情况下,让模型基于新数据或新知识进行训练。
这并非一个新想法,我很好奇今年为何它突然频繁出现,因为到目前为止,持续学习领域并没有任何新的或实质性的突破。持续学习面临的挑战是灾难性遗忘(正如持续预训练实验所示,学习新知识意味着大语言模型会在一定程度上遗忘旧知识)。
尽管如此,既然这似乎是一个热门话题,我确实期望在最小化灾难性遗忘方面取得更多进展,并使持续学习方法的发展成为未来几年的重要发展。
2. GRPO,年度研究宠儿
近年来,在昂贵大语言模型时代,学术研究面临一些挑战。当然,尽管预算有限,学术界仍能取得成为主流的重大发现,这些发现也是大语言模型进步和突破的关键支柱。
近年来,常见的例子包括LoRA (LoRA:大语言模型的低秩适应 2021)以及用于参数高效微调的相关方法。
图8:对 LoRA 教程 的基于代码的介绍
另一个是DPO (Direct Preference Optimization: Your Language Model is Secretly a Reward Model)及相关方法,作为无需奖励模型的对齐方案,替代基于人类反馈的强化学习。
图9:基于代码的介绍对DPO教程
在我的圈子里,今年的研究亮点是GRPO。尽管它并非源自学术界,而是首次出现在DeepSeek R1论文中,但这一年对研究者们来说依然令人振奋:RLVR和GRPO在概念上都很有趣,且根据规模不同,实验成本也并非高到无法承受。
今年在大语言模型研究文献中,我看到了许多针对GRPO的数学改进(来自企业和学术研究者),这些改进后来被采纳到最先进大语言模型的训练流程中。例如,其中一些改进包括:
- 零梯度信号滤波 (DAPO 由 Yu et al., 2025)
- 主动采样 (DAPO 由 Yu et al., 2025)
- 词元级损失 (DAPO 由 Yu et al., 2025)
- 无KL损失 (DAPO 由 Yu et al., 2025 和 Dr. GRPO 由 Liu et al., 2025)
- 更高裁剪 (DAPO 由 Yu et al., 2025)
- 截断重要性采样 (Yao et al., 2025)
- 无标准差归一化 (Dr. GRPO 由 Liu et al., 2025)
- 使用领域特定的KL强度进行KL调优(数学领域为零)
- 重新加权的KL
- 非策略序列掩码
- 保留top‑p / top‑k的采样掩码
- 保持原始GRPO优势归一化
我可以确认,这些 GRPO 技巧或修改在实践中产生了巨大影响。例如,在应用了其中部分或全部修改后,不良更新不再会破坏我的训练过程,我也无需再定期重新加载检查点。
即使是对于非常短的项目,采用这些小技巧后,我也观察到了显著的提升:
图10:我的从零开始GRPO训练代码结果的小片段,该代码在GitHub上可用
无论如何,我在我的 构建推理模型(从零开始)仓库中有一个基础的 GRPO脚本,如果你想把玩一下。(我将很快添加带有相应修改的更多消融研究。)
3. LLM 架构:分叉路?
在LLM架构方面,最先进的模型仍在使用经典解码器风格的Transformer。然而今年,开源权重LLM或多或少都趋同于使用混合专家(MoE)层,以及至少一种“效率优化型”注意力机制:分组查询注意力、滑动窗口注意力或多头潜在注意力。
除了这些相当标准的LLM架构外,我们还看到了针对注意力机制更激进的效率调整,使其能够随序列长度线性扩展。这方面的例子包括Qwen3-Next中的Gated DeltaNets和Kimi Linear,以及NVIDIA Nemotron 3中的Mamba-2层。
总之,我不想在这里过多展开,因为如果你想了解更多,我有一篇长达1.3万字且最近更新的文章专门介绍这些架构:The Big LLM Architecture Comparison。
图11: 大型语言模型架构比较
我的预测是,我们将继续构建,并且使用 transformer 架构至少再持续几年,至少在最先进建模性能方面。
同时,我确实认为我们会看到越来越多这样的效率和工程优化,比如 Gated DeltaNet 和 Mamba 层,因为在大语言模型被训练、部署和使用的规模下,从财务角度来看,这对这些公司来说完全是合理的,而它们仍在为提供大语言模型服务烧很多钱。
这并不意味着没有其他替代方案。正如我在 超越标准大语言模型 中写过的那样,例如,文本扩散模型是一种有趣的方法。目前,它们属于实验研究模型的范畴,但 谷歌分享 他们将发布一个 Gemini Diffusion 模型。它不会与其最先进的产品在建模质量上竞争,但它会非常快速且有吸引力,适用于低延迟要求的任务(例如,代码补全)。
此外,两周前,开源权重的 LLaDA 2.0 模型发布。其中最大的 100B 参数版本是目前最大的文本扩散模型,与 Qwen3 30B 相当。(是的,它并未推动整体技术前沿,但在扩散模型领域仍是一次值得关注的发布。)
4. 同样是推理扩展与工具使用之年
通过扩展训练数据和架构来改进大语言模型是一个既定公式,而且(仍然)持续有效。然而,尤其是今年,它不再是“唯一的”充分方法。
我们在GPT 4.5(2025年2月)中看到了这一点,这被传言比GPT 4(以及后来发布的GPT 5)大得多,而单纯的扩展通常不是最明智的前进方向。GPT 4.5的能力可能比GPT 4更好,但增加的训练预算被认为是“性价比不高”。
相反,更优的训练流程(更侧重于中期和后期训练)以及推理扩展,推动了今年的大部分进展。
例如,如前所述,当谈到实现金牌级数学表现的DeepSeekMath-V2时,推理扩展是我们可以借助的杠杆之一,以按需让LLMs解决极其复杂的任务(GPT Heavy Thinking或Pro是其他例子;由于高延迟和高成本,这些模型不适用于所有场景,但在某些情况下——比如具有挑战性的数学或编码问题——密集的推理扩展是有意义的)。
另一项重大改进来自于在训练大语言模型时考虑工具使用。如您所知,幻觉是大语言模型最严重的问题之一。可以说,幻觉率正在持续改善,我认为这在很大程度上归功于上述工具使用。例如,当被问及1998年国际足联世界杯冠军是谁时,模型无需死记硬背,而是可以通过工具使用调用传统搜索引擎,并从该主题的可信网站(例如本例中的国际足联官网)筛选和抓取此信息。数学问题、使用计算器API等场景亦是如此。
例如,OpenAI 的 gpt-oss 模型是今年较早发布的、专门为工具使用而开发的开源权重模型之一。
图12:来自gpt-oss模型卡论文的注释表格。
遗憾的是,开源生态在这方面尚未完全跟上,许多(如果不是大多数)工具仍然默认以非工具使用模式运行这些大语言模型。原因之一是这是一个较新且不断演进的范式,其工具链需要相应适配。另一个原因同样在于这是一个更难解决的问题,涉及安全考量(给予大语言模型无限制的工具使用权限可能会带来安全风险,或对你的系统造成其他类型的破坏。我认为一个始终应该提出的合理问题是:你会信任一位拥有同等系统访问权限的新实习生来做这件事吗?)
我的确认为,在未来几年,本地使用LLMs时启用和允许工具使用将变得越来越普遍。
5. 年度词汇:本马克辛
如果必须用一个词或趋势来形容今年大语言模型的发展,那一定是“刷榜”。
在此,“跑分至上主义”意味着强烈专注于刷榜分数,有时甚至会让基准测试性能本身成为目标,而非衡量通用能力的手段。
一个突出的例子是Llama 4,它在许多已建立的基准测试中得分极高。然而,一旦用户和开发者实际使用它,他们意识到这些分数并不能反映其现实世界中的能力和实用性。
常言道,如果测试集是公开的,那它就不是真正的测试集。而如今的问题是,测试集数据不仅(有意或无意地)成了训练语料库的一部分,而且在大语言模型开发过程中还经常被直接针对其进行优化。
在过去,即使公共测试集上的基准分数被夸大,至少模型排名仍然得以保持。例如,参见下面2019年 ImageNet分类器是否泛化到ImageNet? 论文中的注释图。
图13: 带注释的图来自2019年 ImageNet分类器是否能在ImageNet上泛化? 论文.
在LLM开发中,情况已发展到基准测试分数不再是LLM性能值得信赖的指标的地步。
然而,我确实认为基准测试仍是LLM必须跨越的必要门槛。也就是说,如果我看到某个LLM在基准测试Y中的得分低于X,我就知道它不是一个好的LLM。然而,如果它在同一基准测试Y中的得分高于X,这并不意味着它比另一个得分同样高于X的LLM好太多。
另一个需要考虑的方面是,图像分类器只有一个任务,即对图像进行分类。然而,大型语言模型(LLMs)被用于许多不同的任务:翻译文本、总结文本、编写代码、头脑风暴、解决数学问题等等。评估图像分类器相对简单,因为有像分类准确率这样明确的指标;而评估大型语言模型则更为复杂,无论是处理确定性任务还是自由形式任务。
除了在实践中尝试使用大语言模型并不断创建新的基准测试外,不幸的是,这个问题没有解决方案。
顺便一提,如果您想了解更多关于大语言模型评估的主要类别,可能会喜欢我的文章《理解大语言模型评估的4种主要方法(从零开始)》:
[
理解LLM评估的四大主要方法(从零开始)
·
2025年10月5日
阅读全文](magazine.sebastianraschka.com/p/llm-evalu…)
6. 人工智能在编程、写作与研究中的应用
由于这种情况经常出现,我想分享一下关于大语言模型在特定类型任务(甚至工作)中替代人类的个人见解。
从宏观角度来看,我认为大语言模型(LLM)是为特定职业人群提供“超能力”的工具。我的意思是,如果使用得当,LLM 能显著提升个人生产力,并消除日常工作中的许多摩擦。这涵盖了从相对常规的任务(例如确保章节标题的大小写规范一致),到在大型代码库中查找复杂bug的各类工作。
6.1 编程
如今,我仍然亲自编写大部分我在意的代码。所谓“在意”,是指在那些我理解代码且代码正确性至关重要的场景中。例如,如果我设置一个LLM训练脚本,我会亲自实现并仔细检查训练逻辑。这样做一是为了确保它按我预期的那样运行,二是为了保留我在这项任务中的知识和专业能力。不过,我现在会使用LLM来添加周围那些更平凡的代码,比如添加命令行argparse样板代码,以便我能更便捷地从命令行使用自己的代码。
图14:使用提示“为 training-script.py 的所有超参数选项添加 argparse”为训练脚本添加命令行参数的示例。
但同时,我也越来越依赖大语言模型来发现问题、提出改进建议或对想法进行合理性检查。与此同时,我希望理解自己正在构建的东西,并且作为一个个人目标,我致力于深化知识和技能,持续增长专业能力。
与此同时,大语言模型对于我核心专业知识之外的任务非常有价值。它们让我能够自动化处理那些我原本没有时间或精力去应对的事情。一个例子是我最近编写的一个工具,用于将我的Substack文章提取和备份为Markdown格式。(我用Markdown起草所有内容,但我经常直接在Substack编辑器中编辑和扩展文章,所以我本地的草稿并不总是最新的)。大语言模型也帮助我清理了我网站上的CSS,这些CSS积累了多年的重复和不一致。并且还有很多类似的情况,我在今年使用了大语言模型。
简言之,我认为关键在于识别何时该用、何时不该用大语言模型,以及如何以令你感到满足的方式使用大语言模型来提升专业能力。
6.2 代码库和代码库
虽然大语言模型在编写代码方面变得更出色,但不管其他人怎么说,我并不认为代码已经或将会变得转瞬即逝或过时。大语言模型赋予了人们超能力,让他们能够生成那些原本需要花费大量精力才能独立完成的项目。
然而,纯由LLM生成的代码库并不能取代由专家精心打造的代码库。这些专家代码库甚至可能是由使用LLM的人类程序员 themselves 创建的。但关键点在于,该领域的专家投入了大量时间和精力来创建、测试和完善它。其他人需要付出大量工作才能复制它,所以如果它已经存在,为什么不直接采用呢?
简而言之,我认为一位学习了优秀设计模式与权衡、并在职业生涯中研究、观察和构建过众多平台的专家全栈网络开发者,能够构建出比随机让大语言模型生成平台的普通人更好的平台。
令人惊叹的是,即使是普通人现在也能构建一个平台,哪怕它不是最完美的。然而,使用和提示大语言模型只能让这个人达到一定水平,平台质量可能就此停滞。因此,如果这个人真的希望提升平台,那么深入钻研这一领域、学习他人构建平台的方法,再带着更丰富的知识回来,更有效地利用大语言模型来指导和优化平台设计,将是一个明智的选择。
6.3 技术写作与研究
与编程类似,我并不认为大语言模型会使技术写作变得过时。撰写一本优秀的技术著作需要数千小时的投入以及对主题的深刻理解。这一过程中可能会使用大语言模型来提升清晰度、检查技术正确性、探索替代方案或进行小型实验,但核心工作仍依赖于人类的判断力和专业知识。
图15:一个非阶段性示例,其中大语言模型(LLM)仅帮助我查找并修复了之前文章中的一个错误。
是的,大语言模型可以让技术书籍变得更好。它们能帮助作者发现错误、扩展参考文献,并总体减少花在琐事上的时间。这为实际需要创造力和经验的深度工作腾出了更多时间。
从读者的角度来看,我也不认为大语言模型会取代技术写作。使用大语言模型学习某个主题适用于快速提问和初学者级别的解释。然而,当你想建立更深入的理解时,这种方法很快就会变得混乱。
与其花费数小时自行筛选关于你正在学习但尚未成为专家的主题的大语言模型回复,通常更明智的做法是遵循专家设计的结构化学习路径。(该专家可能使用也可能未使用过大语言模型。)
当然,在上课或从书本中学习时,使用大语言模型来澄清问题或探索旁支路径,仍然完全合理。让它设计测验或练习来巩固知识也是非常好的选择。
总体而言,我认为LLMs对写作者和读者都是利大于弊。
但我也认为,这里的诀窍在于学会识别何时以及何时不该使用大语言模型。例如,主要的缺点是,当某个主题变得困难时,立即使用大语言模型可能会很诱人,因为首先自己努力解决问题往往能带来更牢固的学习效果。
我对研究的看法也是如此。大语言模型在查找相关文献、发现数学符号问题以及提出后续实验建议方面非常有用。但保持人类研究员的主导地位仍然是合理的。
也许这里的经验法则是这样的:
- 如果这篇(研究)论文或书籍完全由人类生成,它本可能被进一步改进
- 而如果这篇(研究)论文或书籍仅通过提示大型语言模型就能生成,那么它可能不够新颖和/或深入。
6.4 LLMs 与倦怠
大语言模型(LLMs)目前仍处于较新且不断发展的阶段,我认为过度使用LLMs还有一个较少被讨论的弊端。例如,我认为如果模型包揽所有工作而人类主要负责监督,工作可能会开始变得空洞。
当然,有些人确实 genuinely enjoy 专注于管理系统和协调工作流程,这是一种完全有效的偏好。但对于那些真正从事工作本身的人,我认为这种工作模式可能会加速倦怠。(对于期望借助 LLMs 更快获得更多结果的公司而言,这种情况可能尤其如此。)
在努力解决一个难题并最终看到它成功运行时,有一种特殊的满足感。当LLM一次就解决时,我没有同样的感觉。我觉得这类似于烹饪(这只是我突然想到的,而且我不是一个伟大的厨师)。如果你喜欢做披萨,使用现成的面团只添加配料可能会消除很多乐趣,烹饪就变成了达到目的的手段。这不一定不好,但我想如果你每天花很多小时做这项工作,持续很长时间(几个月或几年),我可以看出它会感到空虚并最终导致倦怠。
所以,从自私的角度来看,写代码也比读代码更有趣。你可能会同意,创建拉取请求通常比审查它们更有趣(但当然,这并不适用于所有人)。
或许一个良好、理想化(但并非完美)的类比,来说明我们应如何可持续地使用AI,便是国际象棋。
国际象棋引擎在几十年前就超越了人类棋手,然而,人类进行的专业国际象棋仍然活跃且蓬勃发展。我不是国际象棋专家,但我想说这项运动可能甚至变得更加丰富和有趣。
据我所知(例如,基于卡斯帕罗夫的《深度思考》一书以及 featuring 马格努斯·卡尔森播客),现代棋手已经使用AI来探索不同想法、挑战自身直觉,并以前所未有的深度分析失误。
我认为这是一个有用的模型,可以用来思考人工智能在其他形式脑力工作中的应用。如果使用得当,人工智能可以加速学习,并扩大个人能合理承担的范围。我认为我们应该更多地将其视为伙伴,而非替代品。
但我同样认为,如果人工智能被完全用于外包思考和编程,这可能会削弱动力并阻碍长期技能发展。
图16:大语言模型降低了入门门槛,并且使程序员(初学者和专家)更高效。然而,当我们即将结束2025年时,我认为投资于成为专家仍然是值得的,因为这样你会从大语言模型中获得更多,并能够交付更好的结果。
7. 边缘:私有数据
大型语言模型(LLMs)在编码、知识问答和写作方面的通用能力持续提升。 这很大程度上是因为,得益于训练流程和范式的改进(例如RLVR),以及推理扩展和工具使用的进步,扩展规模仍然能带来正向的投资回报率。
然而,这种情况最终会达到平台期(类似于我们从 GPT-4 到 GPT-4.5 的发展过程中所见),除非我们不断发明新的训练方法和/或架构(目前尚不清楚这些可能是什么样)。
大语言模型目前能够解决许多通用任务和低垂的果实。但是,要在特定行业中扎根,需要更多的领域专业化。我认为大语言模型提供商渴望获得高质量的、领域特定的数据。目前,这看起来将会是一个挑战。
例如,大多数被接触的公司似乎都拒绝了此类交易,正是因为数据具有专有性且是其业务差异化的核心。(我从多个来源听到这一点,还有一篇关于此主题的The Information的文章。)
在我看来,这完全合理。我认为,向OpenAI或Anthropic出售可能在未来让公司获得优势的有价值且专有数据,可能有点短视。
图17:可用于训练特定领域大语言模型的行业和数据类型示例,但外部销售这些数据会令人担忧。(我不是法律专家,这也不是法律建议,但我想象一下,如果它是一个纯本地的大语言模型,不会离开公司的安全服务器,那么用患者健康数据训练模型与开发其他使用该患者健康数据的内部软件没有什么不同。)
目前,LLM开发成本极高且规模化挑战巨大,因此只有少数大公司能开发最先进的LLM。然而,我认为LLM开发正日益商品化,因为LLM开发者频繁跳槽,最终将被大型金融机构、生物技术公司等雇佣,这些机构有预算开发利用其私有数据的竞争性内部LLM。
这些大语言模型甚至无需从头开始完全训练;许多最先进的大语言模型,如 DeepSeek V3.2、Kimi K2 和 GLM 4.7,正在发布并可以被适配和进一步后训练。
8. 从零开始构建大语言模型与推理模型
你可能会想知道我今年在忙什么。我的注意力几乎完全集中在大语言模型相关的工作上。去年,我决定独立并创立自己的公司,主要是为了有更多时间从事自己的研究、书籍、Substack写作和行业合作。
作为一名独立研究者,咨询项目是维持这一模式可持续性的一部分。这包括日常开销(从杂货到医疗保险),但也有一些不那么显眼的成本,比如上述实验所需的云计算费用。
随着时间推移,我的目标是进一步减少咨询工作,将更多时间投入长篇研究和写作,尤其是分享在这里的技术深度解析。
我很幸运,因为许多公司已经联系我关于全职职位,如果独立行不通,这将是可行的选择,但目前我计划保持独立。
如果您觉得我的工作有用,并且条件允许,订阅我的Substack或购买我的书籍,确实有助于让这类创作持续下去,我由衷感谢您的支持。
AI前沿是一个由读者支持的出版物。为了接收新文章并支持我的工作,请考虑成为免费或付费订阅者。
订阅
今年我个人的亮点之一是,我的著作《Build A Large Language Model (From Scratch)》获得了积极反馈。我收到了来自全球各地企业和高校读者的许多 thoughtful messages。
这些反馈涵盖了广泛的应用场景,从大学教授将本书作为教授大语言模型工作原理的主要教材,到 former students 用它来准备面试并成功获得新职位,再到工程师们依赖它作为在生产环境中实施自定义大语言模型的垫脚石。
我也兴奋地得知这本书已被翻译成至少九种语言。
图18:从零开始构建大型语言模型已被翻译成不同语言。
许多读者也询问是否会有第二版,涵盖更新、更高级的主题。虽然这是我考虑过的事情,但我对让书籍更不易理解持谨慎态度。例如,用更复杂的变体如多潜在头注意力(如在一些新的DeepSeek模型中使用),会显著提高入门门槛。
相反,目前,我更喜欢保持原样,因为它对想要入门大语言模型的人非常有效。对于对更高级材料感兴趣的读者,作为后续补充,我在过去一年中为书籍的 GitHub 仓库 添加了大量附加材料。我计划随着时间的推移继续扩展这些材料。
图19:今年我添加到从头构建大语言模型仓库的一些附加材料的摘录。
此外,如你所知,我目前正在制作续作,Build A Reasoning Model (From Scratch).@@
第一本书,构建大语言模型(从零开始),专注于核心大语言模型架构和预训练基础。
图20:两本从零开始的书之间关系的示意图。
推理模型接着第一本书的结尾继续展开。从一个预训练基础模型出发,它专门探索旨在提升推理能力的推理时扩展方法与强化学习技术。
图 21:《从零开始构建推理模型》节选(该内容可在 抢先体验 中获取)。
除了这个Substack,我正在努力撰写这本推理书,在许多方面,我认为这是我迄今为止思考最深入、打磨最精致的一本书。
目前,我估计每章大约花费75-120小时。如果你好奇的话,我估算这部分时间通常分配如下:
- 3-5小时:头脑风暴和修订选题
- 5-10小时:构建内容结构
- 20小时:编写初始代码
- 10-20小时:运行补充实验并阅读最新文献以获取更多见解
- 10-20小时:制作图表
- 10小时:撰写初稿文本
- 10-20小时:重写和精炼章节
- 5-10小时:制作习题并运行实验
- 2-5小时:整合编辑和读者建议
目前,我正在进行到第6章的一半,该章节实现了用于训练推理模型的可验证奖励强化学习(GRPO)代码。
@@@换行_6@@@
图22:第6章和第7章关于具有可验证奖励的强化学习的实验早期结果。
从头构建推理模型 是非常艰苦的工作,但我非常享受参与其中!希望您和其他读者会觉得它有用,类似于 从头构建大语言模型
9. 2025年的意外事件与2026年的预测
我想以一些主要收获来结束这篇文章,重点关注那些让我感到些许意外的事情,以及我对2026年的预测。
9.1 值得注意且令人惊讶的2025年事项
先从2025年的惊喜说起。这些发展,我可能不会预料到,如果你在2024年问我,即一年前:
- 几个推理模型已经在主要数学竞赛中实现了 金牌水平表现(OpenAI使用未命名模型,Gemini Deep Think,以及开源权重的 DeepSeekMath-V2)。我一般不会对此感到惊讶,但我惊讶的是这已经在2025年发生了,而不是2026年。
- Llama 4(或Llama系列)在开源权重社区中几乎完全失宠,Qwen在受欢迎程度上已经超过Llama(根据通过 Nathan Lambert 的 ATOM项目 报告的下载数量和衍生品数量来衡量)。
- Mistral AI 使用了DeepSeek V3架构 用于其最新旗舰模型 Mistral 3,该模型于2025年12月宣布。
- 除了Qwen3和DeepSeek R1/V3.2,许多其他竞争者已经涌现,争夺开源权重最先进模型的地位,包括Kimi、GLM、MiniMax和Yi。
- 更廉价、高效的混合架构在领先实验室中已经成为一个更大的优先事项(Qwen3-Next、Kimi Linear、Nemotron 3)而不是由独立实验室开发。
- OpenAI发布了一个开源权重模型(gpt-oss,我今年早些时候写了一篇关于它的 独立文章)。
- MCP(加入Linux基金会)已经成为代理风格LLM系统中工具和数据访问的标准(目前);我预计生态系统在2025年将保持更碎片化,直到至少2026年。
9.2 2026年预测
- 我们很可能会看到面向消费者的行业级扩散模型,以实现廉价、可靠、低延迟的推理,Gemini Diffusion可能率先推出。
- 开源权重社区将缓慢但稳步地采用具备本地工具使用能力和日益增强的智能体能力的LLM。
- RLVR将更广泛地扩展到数学和编码以外的其他领域(例如化学、生物学等)。
- 传统RAG将作为文档查询的默认解决方案逐渐式微。开发者将不再对每个文档相关查询都依赖检索,而是更多地依靠更优的长上下文处理能力,尤其是随着更好的“小型”开源权重模型的出现。
- 许多LLM基准测试和性能进步将来自工具改进和推理时扩展,而非训练或核心模型本身。LLM看起来会变得更好,但这主要是因为周边应用在改善。同时,开发者将更专注于降低延迟,并让推理模型在非必要处减少推理令牌的扩展。别误解,2026年将推动技术前沿更进一步,但今年进步的比例将更多来自推理端而非纯粹的训练端。
总结来说,我认为如果2025年有一个超越具体技术的宏观教训,那就是大语言模型的进展并非源于单一突破,而是通过多条独立的路径在多个维度上同时推进。这包括架构调整、数据质量提升、推理训练、推理扩展、工具调用等多个方面。
与此同时,评估仍然困难,基准测试不完美,且关于何时以及如何使用这些系统的良好判断仍然至关重要。
我对2026年的希望是我们能继续看到有趣的改进,但也要理解这些改进来自何处。这需要更好、更一致的基准测试,当然还有透明度。
感谢您的阅读,以及一年来在评论中、Substack Notes 到 GitHub 等所有平台上的所有有见地的反馈和讨论。
积极的反馈和深入的交流真正让我保持动力,愿意为长篇文章投入所需的时间和精力,并持续深入地研究大语言模型及其实现细节。我从中获益良多,也希望您同样有所收获。
我非常期待在2026年继续这些对话,因为该领域将持续发展!




















