TokenSkip：让大模型「跳步骤」推理，速度翻倍本文将为你层层拆解TokenSkip的算法设计、理论支撑与实战效果。

想象一下，你让ChatGPT解一道数学题，它会在脑海里「自言自语」：

“小明有5个苹果，先买了3个，现在有8个；然后吃掉2个，剩下6个。所以答案是6。”

这个过程叫思维链（CoT）——模型通过一步步推导得出答案。但问题来了：

步骤越长，速度越慢：传统CoT生成的延迟与序列长度 $T$ 呈线性关系： $\text{Latency} \propto T \cdot (L_{\text{attn}} + L_{\text{FFN}})$ ，即生成100个token（词）比生成10个token慢10倍！
废话太多：像“首先”“然后”“所以”这些词，对解题帮助不大。

这就好比：你写作文时，如果必须把“嗯…这里应该…对吧？”之类的内心活动全写出来，交卷时间肯定来不及

TokenSkip的灵感很简单：不是所有token都值得生成！

1. token的重要性天差地别

举个栗子🌰：
原始CoT：

“首先，小明有5个苹果。接着他买了3个，所以现在总共有5+3=8个。然后他吃掉2个，最后剩下6个。”

关键token：5, 3, 5+3=8, 2, 8-2=6, 答案6
冗余token：首先, 接着, 所以, 然后, 最后

2. TokenSkip的终极目标：
保留学霸token，跳过学渣token！从而让模型生成的CoT更精炼，推理速度更快，同时保持正确率。

用一个小型模型LLMLingua-2当「判卷老师」，给CoT中的每个token打分（重要性分数）。

用户指定一个压缩比例γ（比如γ=0.6，保留60%的token），TokenSkip会：

压缩过程演示：

为什么有效：

我们的最终目的是要让LLM学会自动跳token，而现在我们需要使用压缩后的COT来微调（Fine-tuning） 模型。但全量微调成本太高，TokenSkip用了LoRA：

数据准备：
- 收集大量原始CoT（比如数学题的解题过程）。
- 对原始训练集 $\mathcal{D}$ 中的每个样本 $(\mathbf{x}, \mathbf{c}, \mathbf{a})$ ，用step1-2生成多组压缩样本 $\{(\mathbf{x}, \gamma, \tilde{\mathbf{c}}, \mathbf{a})\}$ ，其中 $\gamma$ 从预设集合 $\{0.5, 0.6, ..., 1.0\}$ 随机采样。
输入格式：

\text{Input} = [\mathbf{x}; \text{EOS}; \gamma; \text{EOS};Compressed CoT; Answer]

即[问题、分隔符、压缩比率、分隔符、压缩后的思维链、答案]， $\text{EOS}$ 为序列结束符， $\gamma$ 以数值形式嵌入[问题] [EOS] 压缩比例0.6 [EOS]
3. 损失函数：

\mathcal{L} = -\sum_{t=1}^{|\tilde{\mathbf{c}}|+|\mathbf{a}|} \log P(y_t \mid \mathbf{x}, \gamma, \mathbf{y}_{＜t}; \theta)

其中 $\mathbf{y} = [\tilde{\mathbf{c}}; \mathbf{a}]$ 4. LoRA微调：
采用LoRA（Low-Rank Adaptation），仅更新权重矩阵的低秩增量：

W' = W + \Delta W = W + B \cdot A, \quad B \in \mathbb{R}^{d \times r}, A \in \mathbb{R}^{r \times k}

超参数设置：秩 $r=8$ ，缩放因子 $\alpha=16$ ，仅调整0.2%的模型参数。

训练成本：

压缩效率：
- 实际压缩比： $\text{Actual Ratio} = \frac{|\tilde{\mathbf{c}}|}{|\mathbf{c}|}$
- 加速比： $\text{Speedup} = \frac{T_{\text{original}}}{T_{\text{compressed}}}$
性能保留度：
- 准确率相对下降： $\Delta \text{Acc} = \text{Acc}_{\text{original}} - \text{Acc}_{\text{compressed}}$

命题1（压缩稳定性）：
若令牌重要性度量 $I(c_i)$ 与答案正确性强相关，则存在压缩比 $\gamma$ 使得：

\Delta \text{Acc} \leq \epsilon \quad \text{且} \quad \text{Speedup} \approx \frac{1}{1-\gamma}

模型	数据集	γ	压缩比	ΔAcc (%)	Speedup
Qwen2.5-14B	GSM8K	0.6	40%	0.4	1.67x
LLaMA-3.1-8B	MATH-500	0.7	30%	3.9	1.43x

如果有哪里没看懂，欢迎评论区提问！👇