数据&资源

🔥『Ultimate Awesome Transformer Attention』视觉Transformer与注意力文献资源列表

研究&论文

公众号后台回复关键字日报，免费获取整理好的论文合辑。

科研进展

2022.07.05『机器学习』Betty: An Automatic Differentiation Library for Multilevel Optimization

2022.06.17『音频』NU-Wave 2: A General Neural Audio Upsampling Model for Various Sampling Rates

CVPR 2022『计算机视觉』Collaborative Transformers for Grounded Situation Recognition

CVPR 2022『计算机视觉』Correlation Verification for Image Retrieval

⚡ 论文：Betty: An Automatic Differentiation Library for Multilevel Optimization

论文标题：Betty: An Automatic Differentiation Library for Multilevel Optimization

论文时间：5 Jul 2022

所属领域：机器学习

对应任务：Hyperparameter Optimization，Meta-Learning，超参数优化，元学习

论文地址：arxiv.org/abs/2207.02…

代码实现：github.com/leopard-ai/…

论文作者：Sang Keun Choe, Willie Neiswanger, Pengtao Xie, Eric Xing

论文简介：Multilevel optimization has been widely adopted as a mathematical foundation for a myriad of machine learning problems, such as hyperparameter optimization, meta-learning, and reinforcement learning, to name a few./多层次优化已被广泛采用，作为无数机器学习问题的数学基础，例如超参数优化、元学习和强化学习等等。

论文摘要：多级优化已被广泛采用为无数机器学习问题的数学基础，如超参数优化、元学习和强化学习等，仅举几例。然而，实施多级优化程序往往需要数学和编程方面的专业知识，从而阻碍了该领域的研究。我们通过介绍Betty--一个用于基于梯度的多级优化的高级软件库，迈出了缩小这一差距的第一步。为此，我们在将多级优化解释为数据流图的基础上，开发了一个自动区分程序。我们进一步将多级优化的主要组件抽象为Python类，以实现简单、模块化和可维护的编程。我们通过经验证明，Betty可以作为多级优化程序阵列的高级编程接口，同时在多个基准上观察到测试精度提高了11%，GPU内存使用量减少了14%，比现有实现减少了20%的挂壁时间。代码可在 github.com/leopard-ai/… 获取。

⚡ 论文：NU-Wave 2: A General Neural Audio Upsampling Model for Various Sampling Rates

论文标题：NU-Wave 2: A General Neural Audio Upsampling Model for Various Sampling Rates

论文时间：17 Jun 2022

所属领域：音频

对应任务：Audio Super-Resolution，Super-Resolution，音频增强

论文地址：arxiv.org/abs/2206.08…

代码实现：github.com/mindslab-ai… , github.com/mindslab-ai… , github.com/rishikksh20…

论文作者：Seungu Han, Junhyeok Lee

论文简介：Conventionally, audio super-resolution models fixed the initial and the target sampling rates, which necessitate the model to be trained for each pair of sampling rates./传统上，音频超级分辨率模型固定了初始采样率和目标采样率，这就需要对每一对采样率进行模型训练。

论文摘要：传统上，音频超分辨率模型固定了初始采样率和目标采样率，这就需要对每一对采样率进行模型训练。我们介绍了NU-Wave 2，这是一个用于神经音频超分辨率的扩散模型，可以用一个模型从不同采样率的输入生成48kHz的音频信号。基于NU-Wave的架构，NU-Wave 2使用短时傅里叶卷积（STFC）生成谐波来解决NU-Wave的主要故障模式，并结合带宽频谱特征变换（BSFT）来调节频域中输入的带宽。我们通过实验证明，无论输入的采样率如何，NU-Wave 2都能产生高分辨率的音频，同时需要的参数比其他模型少。官方代码和音频样本可在 mindslab-ai.github.io/nuwave2 获取。

⚡ 论文：Collaborative Transformers for Grounded Situation Recognition

论文标题：Collaborative Transformers for Grounded Situation Recognition

论文时间：CVPR 2022

所属领域：计算机视觉

对应任务：Image Classification，Object Detection，Scene Understanding，Visual Grounding，Visual Reasoning，图像分类，物体检测，场景理解，视觉基础，视觉推理

论文地址：arxiv.org/abs/2203.16…

代码实现：github.com/jhcho99/cof… , github.com/towhee-io/t…

论文作者：Junhyeong Cho, Youngseok Yoon, Suha Kwak

论文简介：To implement this idea, we propose Collaborative Glance-Gaze TransFormer (CoFormer) that consists of two modules: Glance transformer for activity classification and Gaze transformer for entity estimation./为了实现这个想法，我们提出了协作式眼神-目光TransFormer（CoFormer），它由两个模块组成。用于活动分类的Glance变换器和用于实体估计的Gaze变换器。

论文摘要：基础情况识别是预测主要活动、在活动中扮演某些角色的实体以及给定图像中实体的边界框基础的任务。为了有效地处理这一具有挑战性的任务，我们引入了一种新的方法，即活动分类和实体估计的两个过程是互动和互补的。为了实现这个想法，我们提出了协作式目光转换器（CoFormer），由两个模块组成。用于活动分类的Glance变换器和用于实体估计的Gaze变换器。Glance变换器在分析实体及其关系的Gaze变换器的帮助下预测主要活动，而Gaze变换器仅通过关注与Glance变换器预测的活动相关的实体来估计接地的实体。我们的CoFormer在SWiG数据集的所有评估指标上都达到了先进水平。训练代码和模型权重可在 github.com/jhcho99/CoF… 获取。

作者：ShowMeAI
链接：juejin.cn/post/712084… 来源：稀土掘金
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

数据同级