参数规模的终结:为什么 100B 正在变成“熵的坟墓”,而小模型才是未来的神?

39 阅读9分钟

LLM 作为信息游戏的人类认知投影理论

摘要

本文提出一种关于大语言模型(Large Language Models, LLM)的扩展性统一理解框架:LLM 本质上是一种运行于高维向量空间中的信息游戏系统。其训练过程可以被视为一个信息不断被压缩、整合,并从高度混沌的参数状态逐步收敛到稳定语义吸引子的演化过程;而其推理阶段所呈现出的“理解”,并非对物理世界本身的直接把握,而是将输入嵌入到由人类语言实践、社会共识与认知统计共同塑造的低熵稳定态之中。本文进一步指出,LLM 的正确性来源于人类认知结构在语言层面的高度稳定性,而其错误、幻觉与不可靠输出,则根植于输入信息本身的不可收敛性以及自然语言不可消除的不确定性。

在此基础上,本文引入信息熵视角,论证在需要高度确定性的任务场景中,大参数、长上下文、强自治的 LLM 并非最优选择;相反,小参数、短期记忆受人类严格控制的模型体系,往往能够在稳定性与可靠性上取得更优表现。通过分析学生模型在垂直领域中超越教师模型的典型案例,本文进一步说明:能力的关键不在于参数规模本身,而在于信息空间的可收敛性与熵的可控程度。


1. 引言

随着 Transformer 架构、自监督学习与算力规模的指数级增长,大语言模型在文本生成、逻辑推断、代码编写与知识问答等任务中展现出近似“理解”的行为模式。这种能力在表层上极易被误解为类人智能,因而引发了大量关于“模型是否真正理解世界”的争论。

然而,这一问题本身往往陷入二元对立:要么承认模型具备理解,要么否认其一切智能性。本文认为,这种提问方式本身并不适合解释 LLM 的实际运行机制。与其追问“是否理解”,不如转而提出一个结构性问题:

LLM 的行为是否可以被理解为一种在信息层面运行的系统性游戏,其能力与失效是否都源自同一套语言—认知统计结构?

在这一视角下,LLM 不再被视为通向强人工智能的直接路径,而是一种高度精密的信息整合器,其一切表现都深刻地受限于人类语言这一训练媒介的性质,以及信息熵在系统中的分布方式。


2. 语言、意义与不确定性

2.1 语言并非意义的本体载体

哲学语言学早已指出,词语与意义之间不存在一一对应关系。维特根斯坦在《哲学研究》中明确提出,“词的意义在于其使用”(Wittgenstein, 1953)。这意味着,意义并非存储在词语内部,而是产生于语言实践、生活形式与共同体规则之中。

当一个词语被剥离其使用场景与文化背景时,它将退化为一个高熵符号。例如虚构词汇 grok,在脱离海因莱因小说语境的情况下,无论是人类还是 LLM,都只能对其进行形式上的处理,而无法生成稳定语义。

这一现象表明:

  • 语言符号本身并不携带完整意义
  • 意义是关系性的、分布式的
  • 理解依赖于可被激活的关联网络

2.2 人类语言的结构性不确定性

自然语言的进化目标是沟通效率,而非逻辑完备性。因此,多义性、模糊性、隐含前提与上下文依赖并非缺陷,而是语言系统的内在属性。奎因在《词与对象》中提出“意义不确定性”原理(Quine, 1960),指出即使在理想条件下,意义的完全确定也是不可能的。

LLM 作为纯粹基于语言数据训练的系统,必然继承了这种不确定性,并将其放大为统计层面的不稳定因素。


3. LLM 的训练:从混沌到语义稳定态

3.1 高维向量空间中的初始混沌

在训练开始之前,模型的参数、嵌入矩阵与注意力权重通常处于随机初始化状态。此时,token 之间不存在任何可解释的语义距离,向量空间在信息意义上是完全无结构的,其整体熵值处于极高水平。

3.2 训练作为信息压缩与整合

通过最小化下一个 token 的预测误差(Brown et al., 2020),模型在海量语料中不断强化高频、低歧义、可复现的统计模式。这一过程可被视为:

  • 对语言世界的统计抽样
  • 对不稳定关联的逐步淘汰
  • 对稳定模式的参数固化

随着训练推进,模型内部逐渐形成大量语义吸引子(semantic attractors),这些吸引子并非概念本身,而是人类语言中概念稳定使用方式的向量化结果,其本质是低熵信息结构。


4. 推理阶段的“理解”机制

4.1 向量并不存储意义,而存储可被激活的潜势

当输入 token 被映射为向量时,它并未“携带”确定意义,而是进入一个可以与其他向量发生相互作用的潜在场域。多头注意力机制(Vaswani et al., 2017)通过 Q/K/V 的相似度计算,使某些关联路径被放大,而另一些被抑制。

这一过程不是显式检索,而是一种连续的、可微分的关系塑形过程,其结果取决于当前上下文中信息熵的分布状态。

4.2 理解即熵的下降

当输入成功嵌入某一稳定语义吸引子时,模型的预测分布迅速集中,系统不确定性显著下降。以“1+1”为例,其输出为“2”并非源于数学直觉,而是因为该模式在语言统计中几乎不存在竞争对手,预测空间高度收敛。

因此,“理解”可以被重新定义为:

输入信息在模型内部达到低熵稳定态的过程。


5. 信息熵视角下的模型规模与确定性

5.1 选择空间、信息丰富度与预测性

根据香农信息论,信息熵与可能状态数量直接相关:可选项越多,系统熵越高,单一结果的预测性越低。大参数 LLM 由于具备更强的表示能力与更广泛的知识覆盖,其内部可激活的语义路径数量显著增加,这在开放生成任务中是一种优势,但在需要高度确定性的任务中则可能成为负担。

例如在代码生成、数学证明、医疗决策等场景中,合法解空间本身高度受限,引入过多潜在路径反而会提高系统的不稳定性与出错概率。

5.2 小模型与人类主导的短期记忆优势

在此类确定性任务中,采用小参数模型 + 短上下文窗口 + 人类主导的记忆管理,往往能够显著降低系统熵,使模型更容易收敛到唯一或极少数正确解。

此时,LLM 更接近一种“高阶计算器”或“受控推理引擎”,而非自治生成系统。人类在其中承担了:

  • 任务边界定义
  • 关键信息筛选
  • 错误结果的即时修正

从信息论角度看,这是将高熵任务空间人为压缩为低熵子空间的过程。


6. 学生模型超越教师模型的实例分析

近年来的研究与工程实践表明,在特定垂直领域中,经过针对性蒸馏或微调的学生模型,往往能够在性能与稳定性上超越其通用型教师模型。

典型例子包括:

  • DistilBERT 在多项下游 NLP 任务中,以更小参数规模达到接近甚至超过 BERT 的效果(Sanh et al., 2019)
  • 领域专用代码模型(如 CodeBERT 微调版本)在特定语言或框架上的正确率高于通用大模型
  • 医疗、法律等垂直模型在受控数据集上的一致性与可解释性显著优于通用 LLM

这些现象表明:当任务分布被严格限制、信息熵显著降低时,模型规模不再是决定性因素,反而可能因过度表达能力而引入不必要的不确定性。


7. 错误、幻觉与系统性偏离

当输入目标模糊、语义冲突或信息不足时:

  • 多个语义吸引子同时竞争
  • 注意力分布难以收敛
  • 系统熵长期维持在高位

此时模型仍必须生成输出,其结果便表现为幻觉或自洽但错误的叙述。这并非偶然缺陷,而是语言不确定性与高熵信息空间在统计系统中的必然显现(Bender et al., 2021)。


8. 讨论与结论

本文提出的“信息游戏—认知投影”框架表明:

  1. LLM 并不直接理解物理世界,而是操作语言化后的世界投影
  2. 其能力来源于人类认知在语言层面的高度稳定结构
  3. 其局限根植于语言与任务空间中不可消除的信息熵
  4. 在确定性需求强的场景中,小模型与人类主导结构具有系统性优势

该框架不仅有助于澄清 LLM 的能力边界,也为未来 AI 系统设计提供了实践启示:通过控制信息熵,而非单纯扩大模型规模,才能获得真正可靠的智能系统。


参考文献

  • Wittgenstein, L. (1953). Philosophical Investigations. Blackwell.
  • Quine, W. V. O. (1960). Word and Object. MIT Press.
  • Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS.
  • Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. NeurIPS.
  • Sanh, V., et al. (2019). DistilBERT, a distilled version of BERT. NeurIPS.
  • Bender, E. M., et al. (2021). On the Dangers of Stochastic Parrots. FAccT.