小 P 周刊 Vol.15

255 阅读4分钟

小 P 为你送上本周值得一看的信息~

有意见、建议与吐槽,欢迎直接给小 P 留言哦~

点击链接或扫一扫二维码即可打开对应网页。


学界前沿

SReT:视觉Transformer上的超优性能递归

目前 vision transformer 在不同视觉任务上如分类、检测等都展示出了强大的性能,但是其巨大的参数量和计算量阻碍了该模型进一步在实际场景中的应用。所以在目前的研究中,不仅要考虑如何在不增加额外参数量的前提下把模型的表达能力挖掘到极致,同时还要保证模型计算量在合理范围内,从而可以在一些存储容量小,计算能力弱的嵌入式设备上部署。

基于这个动机,Zhiqiang Shen、邢波等研究者提出了一个 SReT 模型[1],通过循环递归结构来强化每个 block 的特征表达能力,同时又提出使用多个局部 group self-attention 来近似 vanilla global self-attention,在显著降低计算量 FLOPs 的同时,模型没有精度的损失。

图片

CCNN:迈向通用CNN的架构

在 VGG、U-Net、TCN 网络中... CNN 虽然功能强大,但必须针对特定问题、数据类型、长度和分辨率进行定制,才能发挥其作用。我们不禁会问,可以设计出一个在所有这些网络中都运行良好的单一CNN 吗?

近日,来自阿姆斯特丹自由大学、阿姆斯特丹大学、斯坦福大学的研究者提出了 CCNN[2],单个 CNN 就能够在多个数据集(例如 LRA)上实现 SOTA!他们构建的CNN框架可以用于任意分辨率、长度和维度的数据。对于1D图像分类,CCNN 在多个连续基准上获得 SOTA,例如 Long Range Arena、语音识别等。对于2D 图像分类,通过单一架构,CCNN 可以匹配并超越更深的CNN。

图片

ST-P3:端到端时空特征学习的自动驾驶视觉方法

端到端自动驾驶模型结构简单,直接优化最终的驾驶信号,近年来吸引了诸多学术界和工业界的注意。然而,在工业界端到端模型实际应用落地却仍然存在巨大的困难。

上海人工智能实验室自动驾驶团队提出了第一个基于环视相机的,具有显示中间表征结果的端到端自动驾驶框架[3]。针对感知-预测-规划三个子模块,团队分别做了提升时空特征学习性能的特殊设计,包括:基于累积的静态物体特征增加与动态物体特征对齐,结合历史特征变化与未来不确定性建模的双路预测模块,网络前部特征融合提升规划性能。

图片

端到端一体化的训练方式下,三个模块的性能在nuScenes上的感知、预测与开环规划效果均超越相应的方法达到SOTA,并且在CARLA上的测试也可以超越经典的基于多模态的Transfuser方法。

基础技术

使用PyTorch复现ConvNext

ConvNext论文提出了一种新的基于卷积的架构,不仅超越了基于 Transformer 的模型(如 Swin),而且可以随着数据量的增加而扩展!下面这篇文章教你使用Pytorch来对其进行复现,并提供了从Resnet到ConvNext的完整步骤详解。

快来学习吧!

工具推荐

FLAIR:简单易用的 NLP 框架

基于 PyTorch 的 NLP 框架,支持文本命名实体识别(NER)、词性标注(PoS)、词义消歧和分类。项目中包含详细的使用教程,介绍了如何标记文本、训练语言模型等。

你可以在这里访问github。

Online Markdown Edito:功能强大的在线 Markdown 编辑器

支持将 HTML 转换为 Markdown,支持导入、导出到 GitHub, Dropbox, Google Drive, One Drive 等平台,可以导出为 HTML, PDF 等文件。 

图片

你可以在这里访问github。

AI趣用

AI下棋——“元萝卜Sense Robot”下棋机器人

2016年,阿尔法狗与李世石的人机大战,引爆人们对AI的关注。无数棋艺爱好者,在目睹了阿尔法狗战胜李世石之后,无不想与之对弈,亲自感受来自人工智能的神秘力量。如今,曾经只有棋王才能与机器对弈的“特权”,已逐渐“飞入寻常百姓家”。近日,商汤推出了“元萝卜Sense Robot”AI下棋机器,搭载了特殊的AI视觉算法、精准的机械臂、多种对弈模式,快来试试吧!

References

[1]Sliced Recursive Transformer: arxiv.org/abs/2111.05…

[2]Towards a General Purpose CNN for Long Range Dependencies in ND:arxiv.org/abs/2206.03…

[3]ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning: arxiv.org/abs/2207.07…


感谢阅读,欢迎在评论区留言讨论哦~

P.S. 如果喜欢本篇文章,请多多 点赞,让更多的人看见我们 :D

关注 公众号「SenseParrots」,获取人工智能框架前沿业界动态与技术思考。