Seq2Seq模型中的贪心搜索(Greedy Search)

594 阅读2分钟

1. 引入

用Seq2Seq模型开发翻译系统时,假设输入一句法语,输出英文。在Decoder输出部分,选择不同的单词,输出(翻译)的结果也会不同。

这里用下图来举例说明:

在这里插入图片描述

一个法语句子,被Seq2Seq模型翻译为不同的4句英文,我们该选择哪个结果作为最终结果呢?

上图中,给了一个公式,式中的x表示法语句子,y表示各个单词组成的最终的英文句子,不同的y的组合表示不同的翻译,即y1~yn表示单词序列。

解决这个问题的关键,就在于找到合适的y值,使得图中的公式值最大化。

但是具体怎么做呢?下面我们介绍一种方法:Greedy Search。

2. 贪心算法:Greedy Search

第一种选择方法,是最简单的贪心搜索,这是一种贪心算法,它最简单:每次选择输出概率值最大的那个单词组成单词序列,如下图所示:

在这里插入图片描述

首先,挑选第一个概率值最高的单词作为输出,并将其输入decoder,然后,再选择概率值最高的第二个,第三个,。。。

很显然,这不是一种非常好的方法。因为,贪心算法找到的并不是最优解。比如翻译出来的两句英文为:

  • A. Jane is visiting Africa in September.
  • B. Jane is going to be visiting Africa in September.

这两句翻译,从内容上A和B都正确,但A显的更简洁,是更好的翻译。但如果使用贪心算法,输入"Jane is"后,可能会得到"going",因为"going"更常用,所以算法最终选择的是B。

最理想的做法,是穷举每种类型的输出,然后看上一节的公式值是否为最大,这才能找到最优解,但这要穷举太多的次数,复杂度是没法接受的。

参考

原文发表于:blog.csdn.net/ybdesire/ar…