从"装多少"到"装什么"：LLM 上下文压缩从"装多少"到"装什么"：LLM 上下文压缩理解为什么需要压缩上下文，以及

从"装多少"到"装什么"：LLM 上下文压缩

绪论：发展过程

一、为什么要"压"？——从 Transformer 的物理极限说起

1.1 O(n²) 的代价

理解压缩的必要性，必须先搞清楚推理时模型在干什么。每个 token 生成时，模型需要对所有历史 token 执行 Attention 计算：这里的问题在复杂度：序列长度翻倍，计算量翻四倍，Attention 矩阵从 N x N 变成了4N x 4N。为了避免每步都重新计算历史 token 的 Key/Value，工程上引入了 KV Cache：把每层每个 attention head 的 K/V 张量缓存下来，下一步推理直接读取。代价是显存随 context 长度线性增长：

LLaMA-2 13B @ 1k tokens  ≈ 1 GB
LLaMA-2 13B @ 4k tokens  ≈ 4 GB（和模型本身一样重）
100B 模型 @ 1M tokens    ≈ 320 GB（远超单卡容量）

1.2 显存不是唯一的问题——"Lost in the Middle"

更深的问题是：context 窗口大，不代表模型用得好。斯坦福和华盛顿大学的研究发现，LLM 处理长 context 时呈现明显的 U 形性能曲线——关键信息在开头或结尾时准确率最高，放在中间时准确率大幅下降，哪怕是专门为长 context 设计的模型也不例外。（Lost in the Middle, arxiv.org/abs/2307.03172）根本原因是 RoPE（旋转位置编码）的衰减特性：RoPE 通过旋转 Q/K 向量编码位置，query 和 key 的点积对远端 token 自然衰减。序列中间的 token 离两端都远，自然落入"低注意力死区"。还有一个更诡异的现象叫 Attention Sink：第一个 token 会吸附异常大量的注意力分数，哪怕它本身毫无信息量（比如 BOS token）。模型像是把它当成"垃圾桶"，把不需要分配给任何具体 token 的注意力都倾倒过去。关键结论：100万 token 的窗口里，中间 60% 是实际利用率最低的区域。扩大 context 是必要条件，不是充分条件。

1.3 推理成本的非线性爆炸

当 Agentic 应用把 context 变成持续积累的资源时，成本问题就从理论变成了业务威胁： Context 长度每增加 50%，推理成本直接涨 50% Reasoning 模型（o1、DeepSeek-R1 等）使用的计算量比标准模型高出 10 倍以上有测试显示对 OpenAI o1 跑完一次测试花费 2767 美元，因为它生成了 4400 万个 token

二、技术栈：四个层次的压缩方案

2.1 架构层：训练时就解决（最彻底）

GQA（Grouped Query Attention）传统 Multi-Head Attention 每个 head 有独立的 K/V；GQA 让多个 query head 共享同一组 K/V head，直接缩小 KV Cache 体积，精度损失极小。现在几乎所有主流模型（LLaMA 3、Qwen、Gemma）默认采用。（arxiv.org/abs/2305.13…） MLA（Multi-Head Latent Attention） DeepSeek 提出的方案。核心思路是把 K/V 压缩进一个共享的低维隐空间，推理时只缓存这个压缩表示，需要时再重建：（arxiv.org/abs/2405.04…）

标准 KV Cache（4096 维，32 head）：每 token ≈ 4096 个值
MLA 压缩后：每 token ≈ 512 个值（8 倍压缩）

稀疏 Attention 改变计算方式，每个 token 不再 attend 所有历史，而是选择性 attend 部分。DeepSeek-V3.2 引入的 DSA（DeepSeek Sparse Attention）在 128K context 下将推理成本降低约 70%。（arxiv.org/abs/2412.19…）

2.2 KV 淘汰：运行时动态决策（最灵活）

核心洞察：不是所有 token 的 KV 都同等重要。研究一致发现，少数"重型 token"承担了绝大多数注意力权重。 H2O（Heavy-Hitter Oracle）：追踪注意力分数累积最高的 token（heavy hitters），保留它们的 KV 加上最近若干 token，其余淘汰。（arxiv.org/abs/2306.14…） PyramidKV / AdaKV：发现 LLM 注意力具有金字塔式信息漏斗结构——浅层 attention 分布广，深层高度集中。据此对不同层分配不同 KV 预算：浅层多保留，深层少保留。（arxiv.org/abs/2406.02…） R-KV（针对 Reasoning 模型）：同时计算重要性分数（注意力权重）和冗余分数（key 向量余弦相似度），只保留 10~34% 的 KV Cache 就能维持甚至超过原始精度。（arxiv.org/abs/2505.13…）熵引导缓存：用 attention 分布的熵来衡量每个 head 对上下文的需求——熵低的 head 高度集中（如 attention sink），熵高的 head 广泛分散。熵高的 layer 分配更大的 KV 预算。

2.3 量化与跨层共享

KV 量化：将 float16 的 K/V 向量量化为 int4，显存直接砍 75%，精度损失可接受 CLLA（Cross-Layer Latent Attention）：把 KV Cache 下采样到低维隐表示并跨层共享，某些情况下将缓存内存压缩至原来的 2%，且无精度损失。（arxiv.org/abs/2405.12…） ⚠️ 2025 年的重要警示： The Pitfalls of KV Cache Compression 发现，KV 淘汰策略不区分"内容 token"和"指令/系统 prompt token"，在多指令 Agent 场景下会导致某些指令被完全忽略，甚至引发系统 prompt 泄露。这是压缩研究从"激进优化"转向"安全部署"的转折点——压缩率不是越高越好，安全边界必须显式保护。

2.4 Prompt / Token 压缩（输入侧）

剑走偏锋，在 token 进模型之前就删掉冗余：

方法	策略	适用场景
硬压缩	用 perplexity 或注意力权重打分，直接删低分 token	RAG 文档、长系统 prompt
软压缩	训练一个小模型把多个 token 编码为单个紧凑 embedding	固定的 few-shot 示例、重复指令
选择性传递	只保留 Action + Reasoning，屏蔽冗长的工具返回原文	Agent 工具调用轨迹

2025 年的代表进展是 ChunkKV（[arxiv.org/abs/2502.00299](https://arxiv.org/abs/2502.00299)）：以语义 chunk 而非单独 token 为压缩单位，保留语言结构完整性，层间索引复用提升吞吐 26.5%。相比逐 token 打分，chunk 级压缩的信息损失更可控。

三、Memory 体系：Agent 的认知架构

Context 窗口只是记忆系统的一层。一个完整的 Agent 记忆体系，对应人类认知的四个层次：

3.1 四层对比

记忆类型	存储位置	容量	访问延迟	成本	持久性
参数记忆	模型权重	万亿参数	零（前向传播）	训练一次	永久
工作记忆	Context Window	受限	极低	O(n²) 高	会话级
情节记忆	向量数据库	无限	毫秒级检索	低	跨会话
语义记忆	知识库 / RAG	无限	毫秒级检索	低	持久

### 3.2 Consolidation：经历变成知识最容易被忽视、也最重要的机制。情节记忆里存的是"发生了什么"，语义记忆里存的是"规律是什么"。Consolidation 就是把前者蒸馏成后者的过程。具体例子：Agent 团队完成一个项目后，orchestrator agent 对整个工作流做复盘。如果发现某个步骤造成了延误，就把更新后的 SOP 写入语义记忆。下次实例化的 agent 读取更新后的 SOP，效率更高。这是"学习"真正发生的地方——不是训练时的梯度更新，而是运行时经验的结构化积累。 ### 3.3 记忆系统的三个关键设计决策 ① 写入策略：不是什么都值得记朴素做法是每步都写，结果是记忆库膨胀、噪音淹没信号。较优的策略：基于任务结果选择性写入（成功/失败时写，过程中不写）基于注意力权重打分，只持久化高重要性片段设置 TTL（Time-to-Live），过期记忆自动衰减 ② 检索策略：三维度综合排序纯向量相似度不够用，需要结合：语义相似度（embedding 距离）时间衰减（近期的更相关）重要性权重（写入时标注） ③ 去重与矛盾解决记忆库里会有冲突信息（A 说了一件事，后来又说了相反的）。研究显示，基于效用的主动删除策略比朴素积累能带来高达 10% 的性能提升。（[arxiv.org/abs/2511.12987](https://arxiv.org/abs/2511.12987)）

四、应用层：工程实践

4.1 分级 context 策略

核心原则：频繁访问、高关联的放 context；低频但高价值的放外部存储按需检索；过期或冗余的主动丢弃。

4.2 Agent 工程中的具体手段

滚动摘要（Rolling Summary）不保留完整对话历史。维护一个压缩摘要，新内容进来时只对要丢弃的部分做增量摘要，合并进去——而不是每次全量重新摘要（代价太高）。 Observation Masking Agent 执行工具调用时，工具返回的原始输出往往冗长（比如一段 HTML 或完整 API 响应）。策略：只保留 Action、Reasoning 和关键结论，屏蔀掉原文。主动 Checkpoint 在任务的自然断点（完成某个子目标后）主动压缩，不等到 context 快满了才被动截断。区别类似"定期备份"和"硬盘满了才清理"。

4.3 对抗 Lost in the Middle

知道这个规律就能主动利用：信息分级放置：最重要的内容放 prompt 开头，次要内容放结尾，最不重要的放中间明确标注优先级：在 prompt 里显式告诉模型哪些是 primary context，哪些是 secondary RAG 严格控量：注入 context 之前先做 reranking + reduction，只保留前 3~5 个最相关文档，而不是把所有召回结果都塞进去结构化 context：用 XML 标签或 Markdown 头部把不同类型的 context 区分开，减少模型的定位成本

4.4 技术选型参考

场景	推荐策略	备注
单轮长文档分析	Prompt 压缩 + 关键信息优先放置	无需持久化
多轮对话助手	滚动摘要 + 情节记忆外存	注意 consolidation 时机
长期运行 Agent	四层记忆体系 + 主动 checkpoint	写入策略要设计好
代码 / RAG Agent	Observation masking + top-k reranking	工具输出最易膨胀
推理型任务（Reasoning）	R-KV 或 KV 量化	Reasoning token 冗余极高

五、落地现状：主流产品用了哪些，还缺什么

5.1 主流产品实现对比

下表从五个维度评估各产品的 context 与 memory 能力：KV/架构级压缩、工作记忆管理、情节记忆（跨会话）、语义记忆外化、自动 consolidation。表格示意： ✅ 已实现且完善　🟡 部分实现或依赖用户配置　❌ 基本缺失

维度/应用	Claude Code	Cursor	OpenAI Codex	MiniMax	开源 Agent 框架
KV / 架构级压缩	✅ 服务端 compaction	❌ 依赖底层模型	❌ 依赖底层模型	✅ Lightning Attention	❌
工作记忆管理	✅ Tool result clearing + 滚动摘要	🟡 按 token 上限截断	🟡 按 token 上限截断	🟡 规则式保留（首条+近5条）	🟡 手动配置
情节记忆（跨会话）	✅ Session Memory 预写摘要	🟡 .cursor/rules 手动维护	🟡 Desktop 版有限支持	🟡 雏形阶段	✅ MCP memory server
语义记忆外化	✅ CLAUDE.md 自动生成	🟡 .cursor/rules 人工写	🟡 AGENTS.md 人工写	❌	🟡 依赖插件
自动 consolidation	✅ Auto Memory 自动提炼写入	❌	❌	❌	❌
RAG / 语义检索	🟡 文件读取为主	✅ AST + embedding 索引	🟡 仓库结构注入	🟡 初步	✅ 向量数据库
跨平台记忆共享	🟡 仅 Claude 生态	❌	❌	❌	✅ MCP 跨工具

### 5.2 各产品核心策略详解 Claude Code：双轨 Memory 体系最完整。CLAUDE.md 承载语义记忆，由 Auto Memory 自动从会话中提取值得记住的内容写入，跨会话持久化，compaction 后仍保留——这是目前唯一实现真正"情节→语义 consolidation"的产品。Session Memory 则在后台持续生成摘要，compaction 时直接加载预写好的压缩版本，近乎零延迟。Tool result clearing（beta）在 context 超阈值时自动清除旧工具调用结果，保留最近 N 条。最大短板是记忆孤岛：只在 Claude 生态内流通。 Cursor：本质是代码库的 RAG 系统而非真正的记忆系统。用 AST 解析代码结构生成 embedding，存入 Turbopuffer 向量库，Merkle Tree 增量更新（每 10 分钟 diff，只重新 embed 改变的文件），原始代码不上传服务器，只存 embedding 和加密路径。隐私设计扎实，代码库理解深度是五个产品里最强的。短板是跨会话记忆薄，.cursor/rules 需要人工维护，没有自动 consolidation。 OpenAI Codex：每个 task 克隆仓库进独立云端沙箱，context 来自仓库结构本身而非对话历史，192k token 窗口充裕，沙箱隔离干净。AGENTS.md 是项目级语义记忆，但需手动维护。核心痛点：用户在社区普遍反映对同一问题反复纠正后不会自动学习，每次会话重新开始，自动 consolidation 完全缺失。 MiniMax：走架构路线而非应用层 memory 路线。Lightning Attention 实现线性注意力机制，Hybrid Attention（Lightning + Softmax = 7:1）兼顾长程记忆和局部精确性，支持 4M token 推理，80k token 下推理成本仅为 DeepSeek R1 的约 30%。工作记忆管理规则简单：超 30% 阈值时保留首条 AI 回复 + 最后 5 条 + 工具输出，其余丢弃。应用层 memory 体系薄，Agent 能力早期。开源 Agent 框架（MCP 生态）：跨平台记忆共享目前唯一可行的路径。Basic Memory 等 MCP memory server 让 Claude Code、Cursor、Codex 共享同一个 memory store，打破平台壁垒。claude-mem 插件捕获会话内容后 AI 压缩并注入未来 context。灵活度最高，但质量高度依赖用户配置，无平台级保障，consolidation 质量参差。 ### 5.3 一句话总结对比

产品	核心策略	最大亮点	明显短板
Claude Code	双轨 Memory（CLAUDE.md 语义 + Session Memory 情节）+ 服务端 compaction	Auto Memory 自动 consolidation，覆盖最完整	跨平台记忆孤岛，只在 Claude 生态内
Cursor	AST 语义索引 + embedding 向量检索，Merkle Tree 增量更新	代码库理解最深，隐私设计好（原始代码不出境）	跨会话 memory 弱，本质上是 RAG 不是真正的记忆
OpenAI Codex	每 task 独立沙箱 + AGENTS.md 项目级语义记忆	沙箱隔离干净，192k 窗口充裕	缺自动 consolidation，用户反馈每次都要重新解释
MiniMax	Lightning Attention 架构级线性注意力 + 规则式 context 截断	4M token 推理成本仅同级 30%，架构最激进	应用层 memory 体系薄，Agent 能力早期
开源框架	MCP memory server 打通多平台 + 社区插件	跨工具记忆共享唯一可行路径，灵活度高	质量参差，无平台级保障，重度依赖用户配置

### 5.3 当前空白与未来值得做的方向

方向	当前状态	为什么重要	谁最可能先做到
跨会话自动 consolidation 普及	仅 Claude Code 实现，其他产品缺失	用户最痛点：每次重新解释背景	Cursor（用户量大，需求明确）
Memory 质量评估 + 去重	几乎空白，记忆库会随时间膨胀污染	防止"context poisoning"，影响长期任务准确性	需要模型层支持，Anthropic / OpenAI 都有动力
Observation masking 标准化	各平台策略不一，普遍依赖人工配置	工具调用输出占 context 大头，标准化能大幅降本	模型厂商（直接在 API 层实现）
多 Agent 记忆共享协议	MCP 是雏形，但无统一检索/同步规范	多 Agent 协作时记忆孤岛是效率瓶颈	MCP 生态 + Anthropic 推动标准
模型主动感知 context 预算	Claude 3.7/Haiku 已支持 context awareness	Agent 可据此主动调整行为，不再被动截断	Claude Code 下一步自然演进
KV 淘汰 × 任务语义感知结合	当前淘汰只看注意力权重，不理解任务目标	语义感知淘汰能更精准保留与当前子任务相关的 KV	学术界 → 推理框架（vLLM 等）落地
记忆内化（情节记忆 → 参数记忆）	仅学术探索阶段，无产品级实现	把用户积累的经验真正"学进去"，无需每次注入	长期方向，需要持续微调基础设施

六、本质：从基础设施竞争到认知架构竞争

24 年做的是"能装多少"：context 窗口就是竞争壁垒，100 万 token 是里程碑。 25 年做的是"装什么、怎么装、装进去后怎么用"：context 窗口从"扩容瓶颈"变成了需要主动管理的稀缺资源。这个转变背后是 Agentic 时代的到来。当 AI 不再是一次性的请求-响应，而是持续运行、多工具调用、跨会话积累的长期任务执行者，context 就不再是一个"能塞多少就塞多少"的被动容器，而是一个需要主动决策的认知工作空间。谁能更好地管理这个空间——决定保留什么、检索什么、压缩什么、丢弃什么——谁就能在同等算力下做更多、更复杂的事。这也是为什么现在最有意思的研究，不是又一个更大的模型，而是更聪明的 Memory 系统。

七、26年会发生什么——从演化逻辑推导

7.1 三年演化的底层逻辑

表面上是"context 从 4k 扩到 1M，再开始压缩"，底层发生的其实是三次认知升级：

时间	认知升级	代表发现
2023	大不等于用得好	[Lost in the Middle](https://arxiv.org/abs/2307.03172)：中间 60% 利用率最低
2025 上	压缩不是越激进越好	[KV Pitfalls](https://arxiv.org/abs/2510.00231)：压缩有副作用，Agent 场景尤甚
2025 下	Reasoning token 存在"最优长度"	[DMS](https://arxiv.org/abs/2506.05345)：压缩反而提升精度；[Stop Overthinking](https://arxiv.org/abs/2503.16419)：大量冗余

三次升级的方向一致：从"容量管理"走向"认知资源调度"。 ### 7.2 25年末尾的四个未解点这些矛盾是 26 年研究的起点：张力一：压缩精度 vs. 安全性 KV 淘汰不区分"内容 token"和"指令 token"，随着 Agent 大规模落地，这个问题会从学术 concern 变成产品事故（prompt 注入、系统指令被淘汰等）。（[KV Pitfalls, arxiv.org/abs/2510.00231](https://arxiv.org/abs/2510.00231)）张力二：静态压缩 vs. 动态任务所有现有压缩方法是一次性决策，但 Agent 任务的"重要"定义会随当前子任务改变。当前没有任何方法能感知这一点。张力三：单模型压缩 vs. 多 Agent 协作 25年压缩研究几乎全在单模型、单会话语境下做。但现实是 Agent 以 swarm 形式运行——谁的 context 要压、压完之后另一个 Agent 还能用吗，都没有答案。张力四：Reasoning token 的"最优长度"如何动态确定 [DMS](https://arxiv.org/abs/2506.05345) 和 [Stop Overthinking](https://arxiv.org/abs/2503.16419) 的发现并不矛盾，但意味着存在一个最优 thinking 长度——既不能太短也不能太长。如何在推理时动态找到这个点，25年没有答案。 ### 7.3 26年的三条演化线

方向	25年状态	26年预测	落地形态
压缩从"统计感知"→"语义感知"	淘汰策略只看注意力分数，不理解任务语义	推理框架嵌入轻量级重要性分类器，实时感知任务阶段动态分配 KV 预算	vLLM / SGLang 新策略选项，而非独立系统
Thinking token 预算控制内化进模型	外部规则强制截断（粗粒度），模型感知自己预算的能力刚起步	模型推理时实时感知剩余预算，对简单子问题快速略过，对关键节点深入展开——"元认知"能力被训练进模型	训练数据和 RLHF 目标的变化，不会是一篇论文
记忆从"单 Agent 存储"→"多 Agent 共享基础设施"	MCP 打通了工具层，记忆仍是孤岛	某个框架定义多 Agent 记忆通信协议：什么信息广播，什么点对点，什么异步 consolidate	类分布式系统 CRDT 的协议，LangGraph / AutoGen / Anthropic 生态率先落地

还有一个更长线但已经在路上的方向：记忆内化。不是把记忆注入 context，而是把用户经验、偏好、工作方式通过持续微调写进模型权重。25年是纯学术探索，但随着 LoRA serving 和个性化权重管理基础设施成熟，26年可能出现第一个产品级实现——不一定完善，但会有人做出来。 ### 7.4 一个统一的叙事把三年演化和26年预测放在一起，有一个清晰的收敛方向： AI 系统正在从"被动响应"走向"主动认知管理"。被动响应：接收输入，生成输出，不管 context 里装的是什么。主动认知管理：知道自己在做什么任务，知道自己的预算，主动决定记住什么、压缩什么、检索什么、忘掉什么——不被外部规则驱动，而是自己做这些决策。这和人类处理工作记忆的方式是收敛的——人类不是随机遗忘，而是有一套内隐的重要性评估系统，睡眠时 consolidate，需要时检索，不重要时主动忘记。 26年不会完成这个演化，但会迈出几步。哪几步最先落地，取决于谁先把"语义感知压缩"和"thinking token 预算控制"这两个工程问题做成可靠的产品。 ## 参考资料 ### 2022–2024 奠基论文

论文	作者 / 机构	时间	链接
Flash Attention 2	Tri Dao, Stanford	2022	[arxiv.org/abs/2307.08691](https://arxiv.org/abs/2307.08691)
GQA: Training Generalized Multi-Query Transformer Models	Ainslie et al., Google	2023.05	[arxiv.org/abs/2305.13245](https://arxiv.org/abs/2305.13245)
H₂O: Heavy-Hitter Oracle for Efficient Generative Inference	Zhang et al., UT Austin / Stanford	2023.06	[arxiv.org/abs/2306.14048](https://arxiv.org/abs/2306.14048)
Lost in the Middle: How Language Models Use Long Contexts	Liu et al., Stanford / UW	2023.07	[arxiv.org/abs/2307.03172](https://arxiv.org/abs/2307.03172)
Efficient Streaming Language Models with Attention Sinks	Xiao et al., MIT	2023.09	[arxiv.org/abs/2309.17453](https://arxiv.org/abs/2309.17453)
DeepSeek-V2: Multi-head Latent Attention	DeepSeek-AI	2024.05	[arxiv.org/abs/2405.04434](https://arxiv.org/abs/2405.04434)
PyramidKV: Dynamic KV Cache Compression	Cai et al.	2024.06	[arxiv.org/abs/2406.02069](https://arxiv.org/abs/2406.02069)
DeepSeek-V3 Technical Report	DeepSeek-AI	2024.12	[arxiv.org/abs/2412.19437](https://arxiv.org/abs/2412.19437)

### 2025 新进展 25年的研究重心已经发生了明显转移：从"怎么压"转向了"压了之后有什么副作用"以及"Reasoning 模型的专项优化"。以下是值得关注的代表性工作： KV 压缩的新方向与反思

论文	核心贡献	时间	链接
ChunkKV: Semantic-Preserving KV Cache Compression	以语义 chunk 而非单独 token 为压缩单位，保留语言结构完整性；层间索引复用提升吞吐 26.5%	2025.02	[arxiv.org/abs/2502.00299](https://arxiv.org/abs/2502.00299)
Key, Value, Compress: A Systematic Exploration	系统性分类和评估现有 KV 压缩方法，填补基准对比空白	2025.03	[arxiv.org/abs/2503.11816](https://arxiv.org/abs/2503.11816)
The Pitfalls of KV Cache Compression	重要反思：KV 压缩在多指令场景下会导致某些指令被完全忽略，甚至引发系统 prompt 泄露；揭示了当前方法在实际部署中被严重低估的风险	2025.10	[arxiv.org/abs/2510.00231](https://arxiv.org/abs/2510.00231)
Expected Attention: KV Cache Compression via Future Query Distribution	用 LLM 激活的分布特性预估未来 query 的注意力，在 prefilling 和 decoding 两阶段均有效；附带 KVPress 开源库（含 20+ 方法）	2025.10	[arxiv.org/abs/2510.00636](https://arxiv.org/abs/2510.00636)
EVICPRESS: Joint KV-Cache Compression and Eviction	首次将 KV 淘汰与压缩联合优化，跨多存储层调度；TTFT 提速最高 2.19×	2025.12	[arxiv.org/abs/2512.14946](https://arxiv.org/abs/2512.14946)

Reasoning 模型专项——25年最热门的新方向 Reasoning 模型（o1、R1、QwQ 等）在推理时生成大量 thinking token，这成了25年 context 压缩研究的新主战场。

论文	核心贡献	时间	链接
RPC: Reasoning-aware KV Cache Compression for QwQ-32B	针对 reasoning token 的 KV 淘汰，压缩 75% 缓存，吞吐提升 1.60×，AIME 精度仅降 1.2%	2025.05	[arxiv.org/abs/2505.13866](https://arxiv.org/abs/2505.13866)
DMS: Inference-Time Hyper-Scaling with KV Cache Compression	8× KV 压缩，Qwen-R1 32B 在 AIME 24 上提升 12 分——压缩反而因预算释放带来精度提升	2025.06	[arxiv.org/abs/2506.05345](https://arxiv.org/abs/2506.05345)
ENGRAM-R: Memory Orchestration for Reasoning Models	推理时记忆层：结构化记忆复用代替重新推导，输入 token 减少 85%，reasoning token 减少 75%，精度持平	2025.11	[arxiv.org/abs/2511.12987](https://arxiv.org/abs/2511.12987)
Stop Overthinking: Survey on Efficient Reasoning	系统梳理 reasoning 模型"过度思考"问题及压缩方向，包括 CoT 压缩、latent reasoning、token budget 控制	2025.03	[arxiv.org/abs/2503.16419](https://arxiv.org/abs/2503.16419)
Reasoning-Aware Compression (RAC)	发现标准剪枝会让 reasoning 模型生成更多无效 thinking token 反而变慢；提出在剪枝时联合重建 CoT 激活	2025.09	[arxiv.org/abs/2509.12464](https://arxiv.org/abs/2509.12464)

多模态 token 压缩——另一个爆发点

论文	核心贡献	时间	链接
When Tokens Talk Too Much: Multimodal Long-Context Token Compression Survey	系统综述图像/视频/音频 token 压缩；90分钟视频 = 5400万 token，多模态让 context 问题量级再升一个数量级	2025.07	[arxiv.org/abs/2507.20198](https://arxiv.org/abs/2507.20198)