ShowMeAI日报系列全新升级!覆盖AI人工智能 工具&框架 | 项目&代码 | 博文&分享 | 数据&资源 | 研究&论文 等方向。点击查看 历史文章列表,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。
🌌 展会中的『元宇宙』产业生态:八仙过海
7月8日,厦门工业博览会,『元宇宙』超写实虚拟人『飞菲』,借由高精度摄像头的面部捕捉数据、穿戴设备的动作捕捉数据,打开了时空之门,在展会多场景之间随意切换。9月将在北京举办的 2022 年服贸会也将推出元宇宙主题馆,展示全球巨头的商业布局和技术应用。北京的盆友可以前往『元宇宙内容制作』、『元宇宙场景应用』两个专区大饱眼福。
工具&框架
🚧 『robosuite』 机器人学习模块化仿真框架与基准
paper: robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
robosuite 是一个由 MuJoCo 物理引擎驱动的仿真框架,提供了一套用于可重复研究的基准环境,用于机器人学习。robosuite 最初由斯坦福大学开发并作为内部工具,现在被用于 SVL 和 RPL 等实验室的机器人研究项目。为了降低了AI与机器人交叉领域的研究门槛,框架已经对外部开放啦,而且社区维护得很不错~
🚧 『Quickbuild (qb)』 零配置构建系统,在 Linux、Windows 和 MacOS 上快速构建 C/C++ 项目
🚧 『SecretFlow(隐语)』 隐私保护数据分析和机器学习统一框架
SecretFlow 作为一个 unified framework(统一框架),提供了抽象设备层 Abstract Device Layer、设备流层 Device Flow Layer、算法层 Algorithm Layer、工作流层 Workflow Layer,被用于『保护隐私的数据智能』以及『机器学习』。
🚧 『Enso』 具有视觉和文本双重表示的交互式编程语言
Enso 重新定义了数据处理方式——互动 & 提供智能协助。正是因为 Enso 的设计有着扎实的数学基础,它的数据洞察效率和准确度都值得信赖。而且!Enso 横跨整个堆栈,既有视觉也有文本,一种语言就可以完成所有操作!
博文&分享
📚 『语音增强初探 Guidebook』:先带你简单入个门
wenzheliu-speech.github.io/The-guidebo…
2018年以来,语音增强领域的学术研究、工业实践等均发展迅速。作者发现这个领域既没有文献综述,也没有比较全面的推荐博文,于是乎自己动手做一个,就有了这个项目!GitHub 首先完成了基于深度学习的单通道语音增强算法部分,后续可能会拓展去混响、AEC、AGC和阵列部等,目前火热更新中~
📚 『Python小项目全集』免费书电子书
inventwithpython.com/bigbookpyth…
这本《The Big Book of Small Python Projects》书包含 81 个 Python 练手小项目合集,包括游戏、动画、迷宫和模拟等。作者 Al Sweigart 『授之以轮』,书的内容设计保证了高趣味性和实用性,带你看懂每个项目的代码原理,还鼓励你对轮子疯狂魔改~
数据&资源
🔥 『持续学习』术语集(持续补全中)
在持续学习领域,一个术语关键词 ≈ 一个定义。理想情况下,每个术语关键词(Keyword)应该与第一篇介绍它的论文相联系(Citation)。但实际情况更为复杂,比如多个关键词实际上可以对应相同的定义,这种情况下会将这些术语的定义集中到最常见那一个。
🔥 『视觉-语言预训练(VLP)』最新进展
研究&论文
公众号回复关键字 日报,免费获取整理好的论文合辑。
研究进展
- 2022.07.04 『计算机视觉』| Aug-NeRF: Training Stronger Neural Radiance Fields with Triple-Level Physically-Grounded Augmentations
- 2022.06.30 『机器学习』| ProSelfLC: Progressive Self Label Correction Towards A Low-Temperature Entropy State
- 2022.07.04 『自然语言处理』| Egocentric Video-Language Pretraining @ EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022
- 2022.06.30 『计算机视觉』| PolarFormer: Multi-camera 3D Object Detection with Polar Transformers
⚡ 论文:Aug-NeRF: Training Stronger Neural Radiance Fields with Triple-Level Physically-Grounded Augmentations
论文标题:Aug-NeRF: Training Stronger Neural Radiance Fields with Triple-Level Physically-Grounded Augmentations
论文时间:4 Jul 2022
所属领域:计算机视觉
对应任务:Novel View Synthesis,Out-of-Distribution Generalization,新视图合成,分布外泛化
论文作者:Tianlong Chen, Peihao Wang, Zhiwen Fan, Zhangyang Wang
论文简介:Inspired by that, we propose Augmented NeRF (Aug-NeRF), which for the first time brings the power of robust data augmentations into regularizing the NeRF training./受此启发,我们提出了Augmented NeRF(Aug-NeRF),它首次将稳健的数据增强的力量带入NeRF训练的正则化。
论文摘要:神经辐射场(NeRF)通过差异化渲染具有地面真实监督的多视图图像来回归神经参数化的场景。然而,当插值新的视图时,NeRF经常产生不一致的、视觉上不平滑的几何结果,我们认为这是看到的和未看到的视图之间的泛化差距。卷积神经网络的最新进展表明,先进的鲁棒性数据增强,无论是随机的还是学习的,都有可能增强分布内和分布外的泛化。受此启发,我们提出了Augmented NeRF(Aug-NeRF),它首次将稳健数据增强的力量带入到NeRF训练的正则化中。特别是,我们的建议学会了将最坏情况下的扰动无缝地融合到NeRF管道的三个不同层次的物理基础上,包括(1)输入坐标,以模拟图像捕获时不精确的相机参数;(2)中间特征,以平滑内在的特征流形;以及(3)预渲染输出,以考虑多视图图像监督中的潜在退化因素。广泛的结果表明,Aug-NeRF有效地提高了NeRF在新视图合成(高达1.5dB的PSNR增益)和基础几何重建方面的性能。此外,由于三层增强所注入的隐含平滑先验,Aug-NeRF甚至可以从严重损坏的图像中恢复场景,这是一个以前没有解决的高度挑战。我们的代码可在github.com/VITA-Group/…
⚡ 论文:ProSelfLC: Progressive Self Label Correction Towards A Low-Temperature Entropy State
论文标题:ProSelfLC: Progressive Self Label Correction Towards A Low-Temperature Entropy State
论文时间:30 Jun 2022
所属领域:机器学习
论文作者:Xinshao Wang, Yang Hua, Elyor Kodirov, Sankha Subhra Mukherjee, David A. Clifton, Neil M. Robertson
论文简介:(3) Using the standard training setting, a trained network is of low confidence when severe noise exists, making it hard to leverage its high-entropy self knowledge./使用标准的训练设置,当存在严重的噪声时,训练过的网络的可信度很低,很难利用其高熵的自我知识。
论文摘要:为了训练强大的深度神经网络(DNNs),我们系统地研究了几种目标修改方法,其中包括输出正则化、自我和非自我标签校正(LC)。我们发现了三个关键问题:(1)自我标签校正是最吸引人的,因为它利用了自身的知识,不需要额外的模型。然而,如何在训练过程中自动决定学习者的信任度,在文献中没有很好的答案。(2) 有些方法会对低熵预测进行惩罚,而其他方法则会对低熵预测进行奖励,这促使我们问哪一种方法更好。(3) 使用标准的训练设置,当存在严重的噪声时,训练过的网络的可信度很低,这使得它很难利用其高熵的自我知识。为了解决(1)的问题,我们采用两个公认的命题--深度神经网络在拟合噪声之前学习有意义的模式和最小熵正则化原则--提出了一个新的端到端方法,名为ProSelfLC,它是根据学习时间和熵设计的。具体来说,给定一个数据点,如果一个模型已经被训练了足够长的时间,并且预测是低熵的(高置信度),我们将逐步增加对其预测标签分布与注释标签的信任。对于问题(2),根据ProSelfLC,我们从经验上证明,最好重新定义一个有意义的低熵状态,并优化学习者,使其趋向于此。这可以作为熵最小化的辩护。为了解决这个问题(3),我们在利用自我知识纠正标签之前,先用低温降低自我知识的熵,这样修改后的标签就能重新定义一个低熵的目标状态。我们通过广泛的实验证明了ProSelfLC在干净和嘈杂环境下以及在图像和蛋白质数据集上的有效性。此外,我们的源代码可在 github.com/XinshaoAmos… 获取。
⚡ 论文:Egocentric Video-Language Pretraining @ EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022
论文标题:Egocentric Video-Language Pretraining @ EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022
论文时间:4 Jul 2022
所属领域:自然语言处理
对应任务:Benchmark,Language Modelling,语言模型
论文作者:Kevin Qinghong Lin, Alex Jinpeng Wang, Rui Yan, Eric Zhongcong Xu, RongCheng Tu, Yanru Zhu, Wenzhe Zhao, Weijie Kong, Chengfei Cai, Hongfa Wang, Wei Liu, Mike Zheng Shou
论文简介:In this report, we propose a video-language pretraining (VLP) based solution kevin2022egovlp for the EPIC-KITCHENS-100 Multi-Instance Retrieval (MIR) challenge./在这份报告中,我们提出了一个基于视频语言预训练(VLP)的解决方案\cite{kevin2022egovlp},用于EPIC-KITCHENS-100多实例检索(MIR)挑战。
论文摘要:在这份报告中,我们提出了一个基于视频语言预训练(VLP)的解决方案(cite{kevin2022egovlp},用于EPIC-KITCHENS-100多实例检索(MIR)挑战。特别是,我们利用最近发布的Ego4D数据集grauman2021ego4d,从预训练数据集、预训练目标和开发集方面引领了Egocentric VLP。基于以上三个设计,我们开发了一个预训练的视频语言模型,该模型能够将其以自我为中心的视频-文本表示转移到MIR基准。此外,我们设计了一个自适应的多实例最大边际损失来有效地微调模型,并为可靠的推理配备了双软性技术。我们的最佳单一模型在挑战测试集上获得了强大的性能,有47.39%的mAP和61.44%的nDCG。该代码可在 github.com/showlab/Ego… 获取。
⚡ 论文:PolarFormer: Multi-camera 3D Object Detection with Polar Transformers
论文标题:PolarFormer: Multi-camera 3D Object Detection with Polar Transformers
论文时间:30 Jun 2022
所属领域:计算机视觉
对应任务:2D object detection,3D Object Detection,目标检测,3D目标检测
论文作者:Yanqin Jiang, Li Zhang, Zhenwei Miao, Xiatian Zhu, Jin Gao, Weiming Hu, Yu-Gang Jiang
论文简介:3D object detection in autonomous driving aims to reason "what" and "where" the objects of interest present in a 3D world./自主驾驶中的三维物体检测旨在推理出三维世界中存在的 "什么 "和 "哪里 "感兴趣的物体。
论文摘要:自主驾驶中的三维物体检测旨在推理出三维世界中存在的感兴趣的物体的 "内容 "和 "位置"。遵循以往二维物体检测的传统智慧,现有方法通常采用具有垂直轴的典型直角坐标系。然而,我们认为这并不符合小汽车视角的本质,因为每个车载摄像头都以成像几何学固有的楔形(非垂直)轴的形状来感知世界。因此,在本文中,我们主张利用极坐标系统,并提出了一个新的极坐标变换器(PolarFormer),用于在鸟瞰图(BEV)中进行更准确的三维物体检测,只将多摄像机的二维图像作为输入。具体来说,我们设计了一个基于交叉注意的Polar检测头,不受输入结构形状的限制,以处理不规则的Polar网格。为了解决沿Polar距离维度的无约束的物体尺度变化,我们进一步引入了多尺度Polar表示学习策略。因此,我们的模型可以通过在几何约束条件下,以序列对序列的方式关注相应的图像观察,从而最好地利用Polar表征的栅格。在nuScenes数据集上的全面实验表明,我们的PolarFormer明显优于最先进的3D物体检测方法,并且在BEV语义分割任务上产生了有竞争力的性能。
我们是 ShowMeAI,致力于传播AI优质内容,分享行业解决方案,用知识加速每一次技术成长!点击查看 历史文章列表,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。