🏎️ 投机采样 (Speculative Decoding)：大模型推理的并行外挂在自回归生成（Autoregress

在自回归生成（Autoregressive Generation）模式下，大模型必须“逐字输出”，这导致了巨大的计算浪费。投机采样通过博弈论与并行计算的巧思，打破了这一瓶颈，实现了不损失精度的推理加速。

一、核心痛点：为什么大模型“慢”？

大模型推理属于典型的 内存受限 (Memory-Bound) 任务：

投机采样的基本思想是：“用极小的代价预测未来，用极大的代价验证对错。”

草稿迭代：草稿模型连续运行 $K$ 次，生成一段建议序列（如：“北京是中国的首都”）。
并行验证：目标模型一次性将这段序列读入。利用 GPU 的闲置算力，目标模型可以在一个推理周期内判断这 $K$ 个词是否符合自己的逻辑。
接受与修正：
- 目标模型对比自己的概率分布。如果猜对了前 3 个词，它会接受这 3 个词。
- 在猜错的第 4 个词位置，目标模型会给出自己的正确输出。
- 废弃剩余无效猜测，开始下一轮投机。

投机采样不仅仅是加速，它在数学上是完全无损的。它使用了拒绝采样 (Rejection Sampling) 的变体：

如果草稿模型的预测概率为 $q(x)$ ，目标模型的概率为 $p(x)$ ：

为了进一步优化，业界演进出了多种无需额外小模型的方案：

Medusa (美杜莎)：在大模型顶层增加多个“解码头（Heads）”，每个头分别预测未来第 1, 2, ..., N 个位置的词。
- 优点：无需加载额外的草稿模型，节省显存。
Prompt Lookup Decoding：直接从输入的 Context（如 RAG 提供的文档）中寻找匹配的片段作为猜测。
- 优点：在处理文档摘要、翻译等任务时速度奇快。
Eagle：一种更强的投机方案，小模型不仅学习词序，还学习大模型的隐藏层特征（Hidden States），猜测准确率极高。

投机采样的成功取决于 “猜测命中率”。