小 P 为你送上本周值得一看的信息~ 有意见、建议与吐槽,欢迎直接给小 P 留言哦~ 点击链接或扫一扫二维码即可打开对应网页。
学界前沿
清华提出FGST:首个视频去模糊的Transformer
目前的Transformer在计算自注意力机制时,缺少运动信息的指引。而Jinglin等人[1]注意到,运动信息往往可以通过光流进行估计。因此,他们提出用光流来引导注意力机制的计算,在计算注意力机制的时候,每一个query token只参考光流指定的key tokens,而不是参考所有的tokens。FGST是将Transformer模型用于视频去模糊领域的首个工作,通过光流对注意力机制进行引导,克服了全局Transformer和局部Transformer的缺陷,实现线性复杂度和全局空间感受野。此外,受启发于RNN,提出了循环嵌入机制,扩大了Transformer模型的时域感受野。
TokenMix:MMLab&商汤的超强数据增强策略
近日,MMLab和商汤提出了token混合(TokenMix)[2],这是一种token级增强策略,可以很好地推广到各种基于transformer的架构中。TokenMix的动机是两个关键观察结果:1)区域级混合对基于Transformer的架构不太有利,2)使用线性组合分配混合图像的目标可能不准确,甚至违反直觉。 作者提出的TokenMix直接在token级别进行切割,并使用基于内容的神经激活映射获得混合图像的目标。实验结果表明,TokenMix具有增强遮挡鲁棒性和帮助视觉Transformer聚焦输入图像前景区域的特性。此外,TokenMix不断改进各种基于transformer的架构,包括DeiT、PVT和Swin transformer。
大规模非凸问题的解决方案:合并模型模排列对称
Samuel K等人[3]用置换对称性的方式零障碍合并两个模型,实现几秒内大型ResNet模型线性连接。在考虑了隐藏单元所有可能的排列对称性之后,神经网络损失图谱包含(几乎)一个单一的盆地。研究人员引入了三种算法来置换一个模型的单元,使它们与参考模型的单元对齐。这种转换产生了一组功能等效的权重,它们位于参考模型附近的近似凸盆中。在实验上,他们通过各种模型架构和数据集展示了单盆地现象,包括首次(据我们所知)在 CIFAR-10 和 CIFAR-100 上独立训练的 ResNet 模型之间的零障碍线性模式连接演示。
基础技术
最基本的25道深度学习面试问题和答案
近年来,对深度学习的需求不断增长,其应用程序被应用于各个商业部门。各公司现在都在寻找能够利用深度学习和机器学习技术的专业人士。在本文中,将整理深度学习面试中最常被问到的25个问题和答案。如果你最近正在参加深度学习相关的面试工作,那么这些问题会对你有所帮助。 你可以在这里读到文章。 设计哲学 CAM与未来可解释深度模型的发展 CAM作为目前可视化模型最直观的手段,但现阶段CAM解释网络特征变化的未来发展的却具有一定的不确定性。下面这篇文章从CVPR2022中三篇不同领域的文章中CAM的表现出发,讨论了对未来的CAM发展或者是未来可解释深度模型的发展。
AI趣用 机器人Ameca会说话了,全凭GPT-3加持!
除了做「表情包」,世界最先进的人形机器人Ameca能够说话了。近日,英国机器人公司Engineered Arts公布了一段最新视频,展示了Ameca与一些工程师的对话。面对工程师们的提问,它的回答行云流水并且回答时的表情、眼神和动作,给人一种交流亲切感。这个机器人能够说话,全凭语音合成器和GPT-3的加持。而在此之上它精细智能的身体的两大核心技术:一个是机器人操作系统Tritium,另一个是Mesmer技术。
References
[1]Flow-Guided Sparse Transformer for Video Deblurring:arxiv.org/abs/2201.01…
[2]TokenMix: Rethinking Image Mixing for Data Augmentation in Vision Transformers:arxiv.org/abs/2207.08…
[3] Git Re-Basin: Merging Models modulo Permutation Symmetries:arxiv.org/pdf/2209.04…
感谢阅读,欢迎在评论区留言讨论哦~
P.S. 如果喜欢本篇文章,请多多 赞同、喜欢、评论、收藏,让更多的人看见我们 :D
关注 公众号「SenseParrots」,获取人工智能框架前沿业界动态与技术思考。