小 P 周刊 Vol.19小 P 为你送上本周值得一看的信息~ 有意见、建议与吐槽，欢迎直接给小 P 留言哦~ 点击链接

小 P 为你送上本周值得一看的信息~ 有意见、建议与吐槽，欢迎直接给小 P 留言哦~ 点击链接或扫一扫二维码即可打开对应网页。

学界前沿

清华提出FGST：首个视频去模糊的Transformer

目前的Transformer在计算自注意力机制时，缺少运动信息的指引。而Jinglin等人[1]注意到，运动信息往往可以通过光流进行估计。因此，他们提出用光流来引导注意力机制的计算，在计算注意力机制的时候，每一个query token只参考光流指定的key tokens，而不是参考所有的tokens。FGST是将Transformer模型用于视频去模糊领域的首个工作，通过光流对注意力机制进行引导，克服了全局Transformer和局部Transformer的缺陷，实现线性复杂度和全局空间感受野。此外，受启发于RNN，提出了循环嵌入机制，扩大了Transformer模型的时域感受野。

TokenMix：MMLab&商汤的超强数据增强策略

近日，MMLab和商汤提出了token混合（TokenMix）[2]，这是一种token级增强策略，可以很好地推广到各种基于transformer的架构中。TokenMix的动机是两个关键观察结果：1）区域级混合对基于Transformer的架构不太有利，2）使用线性组合分配混合图像的目标可能不准确，甚至违反直觉。作者提出的TokenMix直接在token级别进行切割，并使用基于内容的神经激活映射获得混合图像的目标。实验结果表明，TokenMix具有增强遮挡鲁棒性和帮助视觉Transformer聚焦输入图像前景区域的特性。此外，TokenMix不断改进各种基于transformer的架构，包括DeiT、PVT和Swin transformer。

大规模非凸问题的解决方案：合并模型模排列对称

Samuel K等人[3]用置换对称性的方式零障碍合并两个模型，实现几秒内大型ResNet模型线性连接。在考虑了隐藏单元所有可能的排列对称性之后，神经网络损失图谱包含（几乎）一个单一的盆地。研究人员引入了三种算法来置换一个模型的单元，使它们与参考模型的单元对齐。这种转换产生了一组功能等效的权重，它们位于参考模型附近的近似凸盆中。在实验上，他们通过各种模型架构和数据集展示了单盆地现象，包括首次（据我们所知）在 CIFAR-10 和 CIFAR-100 上独立训练的 ResNet 模型之间的零障碍线性模式连接演示。

基础技术

最基本的25道深度学习面试问题和答案

近年来，对深度学习的需求不断增长，其应用程序被应用于各个商业部门。各公司现在都在寻找能够利用深度学习和机器学习技术的专业人士。在本文中，将整理深度学习面试中最常被问到的25个问题和答案。如果你最近正在参加深度学习相关的面试工作，那么这些问题会对你有所帮助。你可以在这里读到文章。设计哲学 CAM与未来可解释深度模型的发展 CAM作为目前可视化模型最直观的手段，但现阶段CAM解释网络特征变化的未来发展的却具有一定的不确定性。下面这篇文章从CVPR2022中三篇不同领域的文章中CAM的表现出发，讨论了对未来的CAM发展或者是未来可解释深度模型的发展。

AI趣用机器人Ameca会说话了，全凭GPT-3加持！

除了做「表情包」，世界最先进的人形机器人Ameca能够说话了。‍近日，英国机器人公司Engineered Arts公布了一段最新视频，展示了Ameca与一些工程师的对话。面对工程师们的提问，它的回答行云流水并且回答时的表情、眼神和动作，给人一种交流亲切感。这个机器人能够说话，全凭语音合成器和GPT-3的加持。而在此之上它精细智能的身体的两大核心技术：一个是机器人操作系统Tritium，另一个是Mesmer技术。

References

[1]Flow-Guided Sparse Transformer for Video Deblurring:arxiv.org/abs/2201.01…

[2]TokenMix: Rethinking Image Mixing for Data Augmentation in Vision Transformers:arxiv.org/abs/2207.08…

[3] Git Re-Basin: Merging Models modulo Permutation Symmetries:arxiv.org/pdf/2209.04…

感谢阅读，欢迎在评论区留言讨论哦~

P.S. 如果喜欢本篇文章，请多多赞同、喜欢、评论、收藏，让更多的人看见我们 :D

关注公众号「SenseParrots」，获取人工智能框架前沿业界动态与技术思考。

小 P 周刊 Vol.19