SIGIR2019 Meta-Embedding
我们首先看一下论文的基础信息,了解一下研究人员所属团队。
论文信息
题目:“Warm Up Cold-start Advertisements: Improving CTR Predictions via Learning to Learn ID Embeddings”。 题目本身构思精巧,提出了warm与cold两个广告场景帽子,意译为“暖热冷广告”。在帽子下提出了他们的工作,使用元学习(Learning to learn)的方法,学习ID Embeddings来增强CTR预测。
作者:中科院+清华,中科大大佬何清+清华青千唐平中
新词汇:冷启动(clod-start)阶段;热启动(warm-up)阶段;
总的来说,一句话凝练论文解决的核心痛点。在冷启动与热启动的场景下,新广告的ID Embeddings与旧广告的ID Embeddings怎么生成。
牛牛表达
ubiquitous in the literature:在文献中非常普及
In light of these observations:在这个观察启发下
In order to achieve these two desiderata, we design:为了实现这两个功能,我们设计...
we do not need to train the generator from scratch:我们不需要从头开始训练生成器
模型基础信息
论文总体框架如下图,着重描写了在冷启动场景与热启动场景的广告embedding生成。我们都知道,旧广告使用通用的方式查表可生成他的embedding,但是新广告呢?作者给出一个思路,“未见其人”可以“先闻其声”,没见过样本但是见过特征。广告的表征依赖于其特征,作者使用广告特征给随机初始化的embedding贡献梯度,生成新广告的embedding。
神仙打架的学习模式
模型没有见过新广告,但是他见过旧广告。这样可以近似将旧广告假设为“新广告”,这样模型即有他的Embedding(近似理解为label)也有他的特征,这样就可以从“学习旧广告的embedding”中“学习从特征中学习embedding的方法”(原文表述:Meta-Embedding that learns how to learn embeddings for new ad IDs to address the cold-start problem)。这就意味着模型学习存在两个阶段:
- 1)将旧广告假设为新广告(模拟冷启动);
- 2)从旧广告中“学习从特征中学习embedding的方法”(模拟热启动)。
整体学习流程如下图:
- step 1:模型先从训练集合学习Fig.2的model的参数;
- step 2:之后初始化(元生成器参数;
- step 3:评估第一轮旧广告(模拟冷启动),使用的梯度更新元生成器参数,得到(只是暂时存储,仅此处使用一次)
- step 4:评估第而轮旧广告(模拟热启动),得到热启动损失,结合生成最终损失,使用最终更新参数。
值得注意的是,在计算的过程中,参与计算,为了得到的梯度,作者数学推演发现,这里其实是二阶导关系:
基于此,当模型遇到新广告时,可以直接对广告的特征使用参数生成其embd,实验部分有新奇trick,日后再聊。