订阅并收到免费指南--《使用Python的终极数据可视化指南》。
*表示需要
电子邮件地址*
几周前,我写了Perceiver,一个来自Deep Mind的基于变压器的神经网络,它可以处理不同类型的数据。虽然这是一个非常特殊的架构,但它显示了人工智能领域的发展方向。一般来说,变压器和基于变压器的模型在过去几年中获得了很大的普及。似乎拥有足够GPU能力的研究人员可以用它们做几乎任何事情。
这捆电子书是专门为 初学者制作的。
从Python基础知识到将机器学习算法部署到生产中的所有内容都在这里。
今天就成为机器学习的超级英雄 吧!
最好的例子是GPT-3,来自谷歌的1750亿参数的神经网络。微软也利用了变形金刚。他们将其用于必应搜索。这个月,微软研究团队提出了一种新的方法--让每一个特征都变成二进制(MEB)。构建在他们现有的基于变形金刚的模型之上的,是微软提供的最大的通用模型,有1350亿个参数。
在这篇文章中,我们涵盖了。
1.让每一个特征都变成二进制 "试图改善什么?
一般来说,这种补充的想法是让基于Transformer的模型对数据有更细致的理解。我这样说是什么意思呢?好吧,许多NLP模型的问题是,它们会过度概括化。例如,大多数NLP模型都会填写这样的句子。("(空白)能飞。"用 "鸟类 "这个词。然而,并不是所有的鸟都会飞。
似乎这些模型遗漏了什么,对吗?这就是为什么MEB将每个事实分配给一个特征,这让基于转化器的模型有能力为每个特征分配权重,并得出更聪明的答案,如 "鸟类会飞,企鹅除外,等等。"
1.1增加模型容量
这种方法带来了另一个好处。它更有效地使用大量的数据。这意味着,由于特征表示和模型容量有限,用于网络结果排名的模型通常在数亿行之后才会收敛。
现在,微软有大量的必应搜索结果,意味着他们有大量的数据。他们希望他们的模型在使用数亿行后仍能继续学习。基于Transformer的MEB模型就能做到这一点。尽管它是在三年的必应搜索数据上训练出来的,但随着更多数据的加入,它仍能继续学习。
1.2 揭示隐藏的意图
这个模型的另一个很酷的特点是,它可以学习超越语义关系。似乎这个 "特点 "是模型容量增加的结果。从本质上讲,它可以学习查询和文档之间的隐藏意图。微软提供了这个表格。
上表中的例子显示,这个模型学会了 "Hotmail "这个词与 "Microsoft Outlook "这个词有很强的关联性,尽管它们在语义上并不相近。
2.MEB的架构
MEB的架构看起来是这样的。
这个模型由5层组成。有一个二进制特征输入层,一个特征嵌入层,一个池化层,以及两个密集层。输入层包含90亿个特征,由49个特征组产生,每个二进制特征都被编码为15维的嵌入向量。这个输入向量被用来最终创建一个点击概率估计。
3.3.MEB数据和训练
特征工程和训练是这个平台成功的关键。MEB是在3年的必应搜索数据上进行训练的。数据本身由特定种类的键值对组成,其中键是查询,值是带有用户情绪的文件(用户对搜索是否满意)。对于这些对中的每一个,二进制特征都是从查询文本、文档的URL、标题和正文中提取的。
这些特征本身是用查询和文档之间的所谓N-gram级关系来定义的。N-grams基本上是N个术语的序列。所有的特征都是二进制的,有三种主要的特征类型。
- 查询和文档N-gram对的特征
- 桶状数字特征的一热编码
- 分类特征的单热编码
Woodblock,微软的大规模训练平台被用于训练这个模型。这个平台是建立在Tensorflow之上的。为了训练目的,也使用了连续训练。MEB模型每天都会用来自Bing的新数据进行训练,模型会自动部署。整个过程如上图所示。
4.MEB的结果
这个模型为必应搜索提供了一些有趣的结果。也就是。
- 顶级搜索结果的点击率(CTR)增加了近2%。这些结果是在 "折叠上方 "找到的,不需要向下滚动。
- 手动重新制定查询的次数减少了1%以上。用户需要手动重新制定查询,意味着他们不喜欢他们在原始查询中发现的结果。
- 点击分页的次数减少了1.5%以上。用户需要点击 "下一页 "按钮意味着他们在第一页没有找到他们想要的东西。
总结
在这篇文章中,我们探讨了微软是如何利用 "使每个特征都是二进制 "的方法以及基于转化器的模型来提高必应搜索的性能。
谢谢你的阅读!
这套电子书是专门为 初学者设计的。
,从Python基础知识到机器学习算法在生产中的部署,一应俱全。
, 今天就成为机器学习的超级英雄 !
Nikola M. Zivkovic
尼古拉-M-日夫科维奇是 书籍的作者。 机器学习终极指南 和 面向程序员的深度学习.他热爱知识分享,是一位经验丰富的演讲者。你可以看到他在 聚会、会议上发言 ,并在诺维萨德大学担任客座讲师。