SIGIR2019 Meta-Embedding

我们首先看一下论文的基础信息，了解一下研究人员所属团队。

论文地址

论文信息

题目：“Warm Up Cold-start Advertisements: Improving CTR Predictions via Learning to Learn ID Embeddings”。题目本身构思精巧，提出了warm与cold两个广告场景帽子，意译为“暖热冷广告”。在帽子下提出了他们的工作，使用元学习（Learning to learn）的方法，学习ID Embeddings来增强CTR预测。

作者：中科院+清华，中科大大佬何清+清华青千唐平中

代码：github.com/Feiyang/Met…

新词汇：冷启动(clod-start)阶段；热启动(warm-up)阶段；

总的来说，一句话凝练论文解决的核心痛点。在冷启动与热启动的场景下，新广告的ID Embeddings与旧广告的ID Embeddings怎么生成。

牛牛表达

ubiquitous in the literature：在文献中非常普及

In light of these observations：在这个观察启发下

In order to achieve these two desiderata, we design：为了实现这两个功能，我们设计...

we do not need to train the generator from scratch：我们不需要从头开始训练生成器

模型基础信息

论文总体框架如下图，着重描写了在冷启动场景与热启动场景的广告embedding生成。我们都知道，旧广告使用通用的 $look\_up$ 方式查表可生成他的embedding，但是新广告呢？作者给出一个思路，“未见其人”可以“先闻其声”，没见过样本但是见过特征。广告的表征依赖于其特征，作者使用广告特征给随机初始化的embedding贡献梯度，生成新广告的embedding。

神仙打架的学习模式

模型没有见过新广告，但是他见过旧广告。这样可以近似将旧广告假设为“新广告”，这样模型即有他的Embedding(近似理解为label)也有他的特征，这样就可以从“学习旧广告的embedding”中“学习从特征中学习embedding的方法”(原文表述:Meta-Embedding that learns how to learn embeddings for new ad IDs to address the cold-start problem)。这就意味着模型学习存在两个阶段：

1）将旧广告假设为新广告(模拟冷启动)；
2）从旧广告中“学习从特征中学习embedding的方法”(模拟热启动)。

整体学习流程如下图：

step 1：模型先从训练集合学习Fig.2的model的参数；
step 2：之后初始化 $\phi^{init}$ （元生成器参数；
step 3：评估第一轮旧广告（模拟冷启动），使用 $l_a$ 的梯度更新元生成器参数，得到 $\phi'$ （只是暂时存储，仅此处使用一次）
step 4：评估第而轮旧广告（模拟热启动），得到热启动损失 $l_b$ ，结合 $l_a$ 生成最终损失 $l_{meta}$ ，使用 $l_{meta}$ 最终更新参数。

值得注意的是，在计算 $l_{meta}$ 的过程中， $\phi'$ 参与计算，为了得到 $\phi^{init}$ 的梯度，作者数学推演发现，这里其实是二阶导关系：

基于此，当模型遇到新广告时，可以直接对广告的特征使用参数 $\phi$ 生成其embd，实验部分有新奇trick，日后再聊。

SIGIR2019："暖热冷广告"的Meta-Embedding

SIGIR2019 Meta-Embedding

论文信息

牛牛表达

模型基础信息

神仙打架的学习模式