【译】超越变形金刚：微软通过MEB加强Bing搜索结果微软最近推出了'Make Every feature Binary

微软最近推出了'Make Every feature Binary'（MEB）来改进其搜索引擎Bing。MEB是一个大规模的解析模型，超越了纯粹的语义，反映了搜索查询和文件之间更细微的关系。为了使搜索更加准确和动态，MEB利用了大数据的力量，接受了一个拥有2000多亿二进制特征的输入特征空间。

必应的DNN和变压器

必应搜索栈依赖于自然语言模型，以提高核心搜索算法对用户搜索意图和相关网页的理解。深度学习计算机视觉技术被用来提高数十亿张图片的可发现性，即使在文本描述或摘要元数据没有伴随查询的情况下。基于机器学习的模型被用来在更大的文本体内检索回答特定问题的标题。

变形金刚的引入是自然语言理解中的一个游戏规则的改变。与单独和按顺序处理单词的DNN架构不同，变形金刚可以理解每个单词的上下文和它周围所有其他单词在句子中的关系。从2019年4月起，必应纳入大型变形金刚模型，以提供高质量的改进。

MEB是如何提高搜索性能的

基于Transformer的深度学习模型因其对语义关系的高级理解而受到青睐。虽然这些模型已经显示出巨大的前景，但它仍然未能捕捉到对个别事实的细微理解。进入MEB。

MEB模型有1350亿个参数，这有助于它将单个事实映射到特征，以获得更细微的理解。它还通过三年的Bing搜索中的5000多亿个查询/文档对进行训练。这使MEB有能力记住二进制特征所代表的事实，同时可靠地从大量的数据中不断学习。

微软的团队对每个必应搜索印象使用启发式方法，以确定用户对结果是否满意。满意 "的文件被标记为正面样本。同一印象的其他文件被标记为负面样本。对于每个查询-文档对，从查询文本、文档的URL、标题和正文中提取特征。这些二进制特征然后被送入稀疏神经网络模型。它有助于最小化模型预测的点击概率和实际点击标签之间的交叉熵损失。

特征设计和大规模训练是MEB模型的关键。传统的数字特征只关心查询和文档的匹配数。另一方面，MEB特征是非常具体的，它被定义在查询和文档之间的N-gram级别关系上。所有的特征都被设计成二进制特征，以方便覆盖手工制作的数字特征。这些特征是直接从原始文本中提取的，允许MEB在一个路径中进行端到端的优化。目前的生产模型使用三个主要特征。

查询和文档N-gram对特征
桶化数字特征的单次热编码
分类特征的一次热编码

优势

MEB目前在所有地区和语言的所有必应搜索中运行，使其成为微软最大的通用模型。与GPT-3等基于转化器的深度学习模型相比，MEB模型甚至可以学习查询和文档之间的隐藏意图。它还可以识别单词或短语之间的负面关系，以揭示用户可能不希望看到的查询内容。

随着MEB在必应中的引入，微软有以下优势。

顶级搜索结果的点击率（CTR）增加2%。
减少1%的人工查询重构
分页（需要点击下一页按钮）的点击次数减少1.5%以上

MEB模型由一个二元特征输入层、一个特征嵌入层、一个池化层和两个密集层组成。由49个特征组生成，输入层包含90亿个特征。每个二进制特征都被编码为一个15维的嵌入向量。在每个组的总和和串联之后，该向量被传递到密集层以产生点击概率估计。

"如果你正在使用DNNs为你的业务提供动力，我们建议尝试使用大型稀疏神经网络来补充这些模型。如果你有大量的用户互动历史数据流，并且可以很容易地构建简单的二进制特征，这一点尤其正确，"该团队在一篇博客中说。

这篇文章：超越变形金刚。微软用MEB增强必应搜索结果》首次出现在《印度分析》杂志上。