本文已参与【新人创作礼】活动,一起开启掘金创作之路。
01-06
Improving Out-of-Distribution Robustness via Selective Augmentation arxiv.org/pdf/2201.00… Stanford, USTC, RUC, Rutgers (Chelsea Finn)
domain shift 领域的工作,之前的工作都是在训练的时候约束模型的表征,使之domain invariant,作者提出 LISA 不做这个限制,而是整个一起学,自主选择同个标签不同领域,或是同个领域不同标签的模型。或许和主动学习可以有点借鉴?
DiffuseVAE: Efficient, Controllable and High-Fidelity Generation from Low-Dimensional Latents arxiv.org/pdf/2201.00… IIT, Google Research
VAE+Diffusion 两大生成模型的结合
01-05
Two-level Graph Neural Network arxiv.org/pdf/2201.01… xmu
图论指导的GNN设计,计算子图然后重新构建图
Self-directed Machine Learning arxiv.org/pdf/2201.01… Thu, UCSD
全新的ML思路,让模型自己选择 Task, Model, Data, Evaluation Metric和Optimization Strategy 进行学习,没有实验,纯概念性的文章。作者之一是Pengtao Xie,风评挺差的...
01-07
Contrastive Neighborhood Alignment arxiv.org/pdf/2201.01… Amazon/AWS AI
提出了一个 contrastive loss,利用这个目标模型可以学到源特征的局部结构,达到模拟原模型的作用。可以应用于三个场景:manifold learning, model distillation, legacy model update。一个挺 general 的工作,感觉挺棒的,等我梳理了KD系列工作就来重读。
Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets arxiv.org/pdf/2201.02… OpenAI
一个实验性论文,在algorithmic dataset上可以观察到grokking(顿悟)现象,就是在overfitting之后继续训练1000倍的时间,val acc的突然上升,作者认为这种数据集很适合用来研究 Generalization。
NumHTML: Numeric-Oriented Hierarchical Transformer Model for Multi-task Financial Forcasting #AAAI2022 arxiv.org/pdf/2201.01… Westlake Yue Zhang
考虑到Transformer在文本建模的时候数字不敏感,这里就提了一个编码数字的方式,任务是股价预测。但是因为是应用导向的,所以模型设计的还是比较琐碎。
Does entity abstraction help generative Transformers reason? arxiv.org/pdf/2201.01… Mila, CIFAR
实验了很多把abstract knowledge融进Transformer的方式,发现如果任务有很强的逻辑性,做进去是有用的,否则没什么用。另外发现enc-sum和dec-loss这两种融入知识的方式最有效。
01-10
MGAE: Masked Autoencoders for Self-Supervised Learning on Graph arxiv.org/pdf/2201.02… tamu, ...
MLM 的任务总算是轮到 Graph 了,只不过思路和 MAE 一模一样。
Generalized Category Discovery arxiv.org/pdf/2201.02… HKU, VGG (Kai Han)
Kai Han 的关于 Novel Category Discovery 又一个作品