现代循环神经网络8-束搜索：在翻译与生成任务中寻找最优解的智慧策略贪心搜索效率至上却易陷局部最优，穷举搜索确保全局最优但

1. 贪心搜索：简单高效的策略

想象你在玩文字接龙游戏，每次只选择当前看起来最合适的词。这就是贪心搜索的核心思想：在生成序列的每一步，都选择当前概率最大的候选词。

数学表达：
在时间步 $t$ ，我们选择的词元为：
$\boxed{y_t = \arg\max_{y \in \mathcal{Y}} P(y | y_1, \ldots, y_{t-1}, \mathbf{c})}$

示例：
假设词表为["猫", "狗", "跑", "<eos>"]，各时间步概率如下：

致命缺陷：
如下图所示，当第二步选择次优词元时，可能得到更优的全局结果。就像走迷宫时，当前看似最好的路口可能通向死胡同。

贪心搜索条件概率： $0.5 \times 0.4 \times 0.4 \times 0.6 = 0.048$

在时间步2选择第二高条件概率的词元，而非最高条件概率的词元： $0.5 \times 0.3 \times 0.6 \times 0.6 = 0.054$

如果我们尝试所有可能的路径，就能保证找到最优解。但计算量呈指数级增长：

$\boxed{计算量 = |\mathcal{Y}|^T}$

当词表大小 $|\mathcal{Y}|=1000$ ，序列长度 $T=10$ 时，需要计算 $1000^{10}=10^{30}$ 种可能——这需要宇宙中所有原子作为计算单元都远远不够！

设置束宽 $k$ （如k=3），在每一步保留概率最大的前k个候选序列。

算法步骤：

数学表达：
最终选择标准（带长度惩罚）：
$\boxed{\frac{1}{L^\alpha} \sum_{t=1}^L \log P(y_t | y_1, \ldots, y_{t-1}, \mathbf{c})}$

假设词表为["A", "B", "C", "<eos>"]，束宽k=2，最大长度T=3

最终最优序列：ABB（概率0.096）

计算量公式：
$\boxed{k \times T \times |\mathcal{Y}|}$

当k=5， $|\mathcal{Y}|=1000$ ，T=10时，计算量为5×10×1000=50,000次运算——普通手机都能轻松处理！

下图是一个束搜索过程（束宽：2，输出序列的最大长度：3）。候选输出序列是A、C、AB、CE、ABD和CED

关键启示：在人工智能的世界里，完美解往往可望不可及，聪明的折中方案才是王道。就像人生的重要选择，我们无法穷尽所有可能性，但可以通过有限度的探索（类似束搜索），找到满意的人生路径。