过去一段时间,latent space 这个词越来越常见。
但这个概念到底在讲什么?它又真正改变了什么?
这篇综述最有价值的地方,是没有停在抽象定义,
而是把问题拆成了五个可讨论、可对照的视角:
Foundation -> Evolution -> Mechanism -> Ability -> Outlook。
一、基础(Foundation)
这部分内容主要是界定潜在空间的范围,区分其与显式/文本空间以及视觉生成模型中潜在空间的不同。
很多争论不是立场冲突,而是概念混线:
“latent space”到底是更高级 CoT,还是完全另一套计算面?
通俗一点来说
- token 空间:模型把中间思路翻译成字,一步步往外说;
- latent 空间:模型在内部连续状态里先算,最后只输出必要结果。
你可以把它理解成:
- token = 公共发言区(可读,但冗余);
- latent = 后台工作区(高密度,但不直观)。
和哪些东西不一样
- 不等于“把 CoT 藏起来”:核心不是隐藏文本,而是把中间计算搬到连续表征。
- 不等于“视觉模型里的 latent 一回事”:这篇讨论的是通用语言模型推理链路里的潜在计算。
- 不等于“语言没价值了”:语言仍是接口层,只是中间态不必全部语言化。
Explicit space 和 Latent space 的对比
先看表征属性(Representational Properties):
- Human-readable vs Machine-native
Explicit space 的中间状态是自然语言 token,天然可读;
Latent space 的中间状态是连续向量,天然给机器算,不是给人读。 - Inefficient vs Efficient
Explicit 路线有三类典型效率损耗:语言冗余、每步表征转换、严格串行解码;
Latent 路线减少了“每步都必须翻译成人话”的负担,计算预算可更灵活分配。 - Semantically-lossy vs High-fidelity
连续状态映射为离散词汇时,会有量化瓶颈:细粒度不确定性、跨模态细节、部分中间痕迹会被压缩或丢失;
Latent 表征更容易保留这类高维语义结构。
再看功能能力:
- Operability:latent 空间可直接做可微操作、插值、干预、迭代交错;显式 token 空间在这方面更受限。
- Expressiveness:latent 更容易承载高维和非语言信息,不必强制受限于词表与语法。
- Scalability/Generalization:在复杂任务下,latent 更容易支撑跨任务状态复用与组合迁移。
- 代价同步上升:可评估性、可控性、可解释性难度也会抬升,这也是它的治理门槛。
所以这张图真正说明的是:
Explicit 与 Latent 的关键差异,不在“谁更聪明”,而在“中间计算用什么载体表达、用什么成本执行、用什么机制治理”。
二、演变(Evolution)
这部分内容主要是追溯该领域从早期探索到当前大规模扩展的发展历程。
核心判断是:latent 到底是短期热点,还是长期迁移。
通俗一点来说
论文把演化拆成四段:Prototype -> Formation -> Expansion -> Outbreak。
这说明它不是某个单点技巧火了,而是从“可行性证明”走向“系统化扩展”。
时间线趋势
最早一批工作先证明「推理相关结构可以落在连续激活里,而不必步步 verbal 成 token」;接着进入成形期,理论解释和系统评估跟上来,重心仍在文本 latent 推理,并开始试探多模态;再往后是快速扩张,视觉、具身、多智能体协作、记忆、测试时扩展和强化学习等路径并行生长;到爆发期,专门面向 latent 的架构与优化变多,语言、视觉、动作与多智能体常被放在同一套「以 latent 为主计算面」的叙事里讨论。
对应到下面四段,可以这样记:
-
Prototype:证明“能做”;
-
Formation:机制开始成形;
-
Expansion:从单任务扩到多能力;
-
Outbreak:架构、优化、应用开始并行推进。
类比
这更像修路:
先探出一条土路(可行),再铺路基(机制),再接支线(能力),最后通车(规模化应用)。
到 Outbreak 这一档,讨论「是不是能长期工程化」才比较站得住脚,否则容易把单点 demo 当成终局。
三、机制(Mechanism)
Mechanism,主要讲四个方面的内容:架构、表征、计算、优化。
它落在什么架构里?结构上是改主网、加件还是加旁路?
表征从哪来?信号是前向里就有、外灌进来的、专门学的,还是两头接起来?
计算怎么排?算力是压体积、拉深度宽度、看菜下饭,还是几种媒介交错跑?
优化是训进去还是推的时候拧?能力到底多大头在预训里训进去、多少靠后训补、上线还能不能只拧内部态少动权?
3.1 Architecture:放在哪
Backbone 路线主要是通过 recurrent、looping、recursive 等结构赋予模型 latent 能力——要的是「原生就能在内部状态里多走几步」,不是事后在 hidden 上打补丁。
Component 路线是保留主要的模型骨架,利用生成、投影头、对齐、控制、存储或其他组件,实现 latent 相关能力。
Auxiliary Model:利用额外的模型提供监督、蒸馏、中间特征,引导或增强宿主模型,多一条链路、也多一层对接成本。
换句话说就三件事:动发动机、动改装件、还是旁边再开一辆教练车。动根的上限高、迁移和生态成本也高;加件要盯接口和挂点,不然 latent 能做的事被骨架开口卡死;旁路能补监督、补特征,可训练与推理的同步要你自己盯。
3.2 表征:从哪来
主要有四种不同方式:
内部表征(Internal) 是利用内部状态,包括:词元嵌入、各层隐状态、KV cache 等;
外部表征(External) 是利用其他模型的状态特征注入模型,常见冻结,拿来当条件或当监督,主干不必为那条管线的预训全买单;
可学习表征(Learnable) 是通过可学习模块为任务单开参数:连续虚拟 token、轻量适配器(adapter)等,再端到端学;
混合表征(Hybrid) 把 Learnable 和 External 拼在一起:先通过可学习模块得到表征,再注回骨干(论文里 Hybrid 与「两阶段外注」对应)。
3.3 Computation:怎么算
压缩(Compressed) 就是少带一点:显式链短一点、状态薄一点、跨模态中间特征别全展开。
扩张(Expanded) 是反过来,深一点、宽一点、多走几轮、并行或叠加,换的是算力、带宽和调度上的「头大」。
自适应(Adaptive) 是同一套预算不固定了:该停就停、该绕就绕、门怎么开看输入。
交错(Interleaved) 是允许多种不同信息交错搭配、融合增强,譬如显式和隐式特征、文本和图像表征、推理和记忆内容、规划和感知信息。
3.4 Optimization:怎么训、怎么推
预训练(Pre-training) 是从小权重一路训到能用,学最「原汁原味」的 latent 能力。
后训练(Post-training) 是拿现成大模型再训:多目标、多监督下继续学 latent 空间。
推理期(Inference) 是推的时候拧 latent、少动权;调度、早停、重采样也算。
三类不是互斥,是时间轴上三段分工:哪里写死、哪里还能拧。
四、能力(Ability)
在大型模型里,latent 更像给机器算的状态层,不只是在省 token——它让一类能力可以不依赖逐步写成自然语言也能发生。这部分包含了七个能力域:推理、规划、建模、感知、记忆、协作、具身。
5.1 推理(Reasoning)
论文在讲什么:用连续内部表征做演绎、关系计算与收束,而不是每步都 verbalize 成 token。相对显式 CoT,这常被表述为一种范式的变化:算主要发生在高维流形里,自然语言是出口之一。
论文介绍的几类能力:隐式推理(不全程展开)、压缩轨迹(长链收进更紧的内部态)、连续精炼(在 latent 里迭代改 thought)、分支/并行(多路候选同时展开)、再往外延伸到模态与任务上的推广(不限于纯文本)。一句话:推理关心的是在同一上下文里把逻辑算完;评测上仍要面对「过程不可直接读」的问题。
5.2 规划(Planning)
与推理的分工:规划强调在解空间/轨迹空间里找路——往哪投算力、怎么探索、什么时候停;推理更偏向给定语境下的演绎。latent 流形可微时,用梯度、策略优化、测试时细化轨迹会更顺。文中按四条粗线写:可控探索、高效搜索、预算随题变、面向交互的序贯决策(推荐、检索、工具链、多步控制等,综述里会点到)。一句话:规划是前向组织一条「要走的解路径」,不只是在当前句里把结论说圆。
5.3 建模(Modeling)
这里的 Modeling 指对 latent 本身能否刻画、检查、控制、加厚,不是建「世界模型」。论文拆成四块:富表达(连续 thought 的表达能力/极限)、自检视/可分析(探针、可视化、流是否可信)、稳健控制(安全与攻防都在同一表征上动刀)、可扩展计算(循环、反复迭代、动深度/ponder 等把有效深度做上去)。
5.4 感知(Perception)
核心矛盾:把丰富视觉先压成离散文本,常会丢空间结构、细关系与几何;因此要在高保真、空间上仍成结构的连续表征里做内部推理。文中分三层由浅入深:多模内部推理、需要生成/脑补时的启发式「想象」、以及为减轻幻觉、提高忠实度的表征层接地/干预(Faithful Grounding) 。
5.5 记忆(Memory)
动机:大模型无长程内部状态时,要跨步、跨会话驻留就得外挂;全用长 prompt 当记忆会胀、会糊检索、也难做可学习巩固。latent 记忆把要保留的东西压到连续向量/槽位和可训机制里。文中能力大致是三层:工作记忆式的缓存/可干预、能随使用演化的长程库、以及再跨到多模/具身的再调用与锚定。代价仍然实在:忘、串、与训练目标抢梯度要另防。
5.6 协作(Collaboration)
问题设定:多智能体传统靠自然语言传话;语言是公共协议,也是高损、高延迟、难联合优化的通道。用 latent 直接传内部状态/连续表示,是在换「带宽」和「语义保留」,但要付协议、权限与对齐的成本。论文里三层大致是:语义高保真传递、多体间共享/演化共同结构、以及异构模型/模态在不强绑架构下的互操作。
5.7 具身(Embodiment)
问题设定:机体、视角、环境一变,标注演示常常不迁移;若动作也挤在纯符号里,几何与连续因果会断。综述按五条能力线组织(由窄到宽):无/少标视频里学可迁移动作、不显式长链的隐式多步“思考” 、在 latent 里前瞻模拟拿训练与决策信号、在策略表征里补 3D/4D 空间结构、用体无关的 latent 动作/策略空间在不同硬件间迁移。这节的硬瓶颈往往在数据与域迁移,和纯语言任务不在一个量级。
五、展望(Outlook)
三个层次:先立总体看法(Perspective)→ 再讲当下硬骨头(Challenge)→ 再拆未来工作(Future) 。
6.1 总体看法(Perspective)
论文强调:越来越多工作把 latent 当成主计算面而不只是副产品。综述五块正好对应五连问:是什么、怎么长成今天这样、机制上怎么接、能力上能支什么。合起来,作者的调子是——latent 有潜力成为统合多模、多体、多时间尺度的中层,把不好写成 token 流的信息放在同一条连续工作区里处理;自然语言仍常是对外接口,但核心运算会越来越多在内部连续状态上发生。
6.2 主要挑战(Challenge)
能力强的那几面(连续、压、活)反过来就是难:Evaluability(中间态难直读、难做过程级验证,评测往往落在答案对或后验 verbalize)、Controllability(高层意图如何稳落到内部、干预怎样同时满足语义+安全+资源)、Interpretability(高维、纠缠、难还原成稳定概念,审计与排障都更难)。三者在文中被写成一组绑在一起的短板:不单独只刷 benchmark,可观测、可引导、能解释要一起推。
6.3 未来方向(Future)
- 理论:从「latent 有用」再往前走——为何、何时、何种任务上比显式 token 更合适;显式语言空间与连续 latent 空间怎么分工、怎么合流;可信 latent 需要什么样的评测与监督协议。
- 多模与系统:不满足于「多模都先变语言」,而倾向在共享连续空间里做视觉、行动、记忆、协作——综述把这写成一条长期的模态 native / 系统级路线。
- 下游与形态:搜索重、规划长、记忆久、多体协同、具身控制等「中间态难写成话」的任务,更依赖 latent 做内部主运算;同时需要可治理的接口(标准、基线、责任边界)——文里会提到 Governable 一类方向:基准、过程监督、可控接口、可解释框架要成套出现,而不仅是多报几个准确率。
latent 若要做成长期可运维的范式,评估—控制—解释—治理和「再涨几分」同样关键;否则容易停在「强但难上线、难对账」。
下半场的竞争,不只是算法创新,而是谁先把 latent 做成可运营、可审计、可协作的系统工程。
参考资料
[1] The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook