arxiv 2022-01-06至2022-01-10

224 阅读2分钟

本文已参与【新人创作礼】活动,一起开启掘金创作之路。

01-06

Improving Out-of-Distribution Robustness via Selective Augmentation arxiv.org/pdf/2201.00… Stanford, USTC, RUC, Rutgers (Chelsea Finn)

domain shift 领域的工作,之前的工作都是在训练的时候约束模型的表征,使之domain invariant,作者提出 LISA 不做这个限制,而是整个一起学,自主选择同个标签不同领域,或是同个领域不同标签的模型。或许和主动学习可以有点借鉴?

DiffuseVAE: Efficient, Controllable and High-Fidelity Generation from Low-Dimensional Latents arxiv.org/pdf/2201.00… IIT, Google Research

VAE+Diffusion 两大生成模型的结合

01-05

Two-level Graph Neural Network arxiv.org/pdf/2201.01… xmu

图论指导的GNN设计,计算子图然后重新构建图

Self-directed Machine Learning arxiv.org/pdf/2201.01… Thu, UCSD

全新的ML思路,让模型自己选择 Task, Model, Data, Evaluation Metric和Optimization Strategy 进行学习,没有实验,纯概念性的文章。作者之一是Pengtao Xie,风评挺差的...

01-07

Contrastive Neighborhood Alignment arxiv.org/pdf/2201.01… Amazon/AWS AI

提出了一个 contrastive loss,利用这个目标模型可以学到源特征的局部结构,达到模拟原模型的作用。可以应用于三个场景:manifold learning, model distillation, legacy model update。一个挺 general 的工作,感觉挺棒的,等我梳理了KD系列工作就来重读。

Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets arxiv.org/pdf/2201.02… OpenAI

一个实验性论文,在algorithmic dataset上可以观察到grokking(顿悟)现象,就是在overfitting之后继续训练1000倍的时间,val acc的突然上升,作者认为这种数据集很适合用来研究 Generalization。

NumHTML: Numeric-Oriented Hierarchical Transformer Model for Multi-task Financial Forcasting #AAAI2022 arxiv.org/pdf/2201.01… Westlake Yue Zhang

考虑到Transformer在文本建模的时候数字不敏感,这里就提了一个编码数字的方式,任务是股价预测。但是因为是应用导向的,所以模型设计的还是比较琐碎。

Does entity abstraction help generative Transformers reason? arxiv.org/pdf/2201.01… Mila, CIFAR

实验了很多把abstract knowledge融进Transformer的方式,发现如果任务有很强的逻辑性,做进去是有用的,否则没什么用。另外发现enc-sum和dec-loss这两种融入知识的方式最有效。

01-10

MGAE: Masked Autoencoders for Self-Supervised Learning on Graph arxiv.org/pdf/2201.02… tamu, ...

MLM 的任务总算是轮到 Graph 了,只不过思路和 MAE 一模一样。

Generalized Category Discovery arxiv.org/pdf/2201.02… HKU, VGG (Kai Han)

Kai Han 的关于 Novel Category Discovery 又一个作品