小 P 周刊 Vol.17

148 阅读4分钟

小 P 为你送上本周值得一看的信息~

有意见、建议与吐槽,欢迎直接给小 P 留言哦~

点击链接或扫一扫二维码即可打开对应网页。


学界前沿

BeiT v2 开源:实现 ViT微调自由!

蒙面图像建模(MIM)通过恢复受损的图像块在自我监督表示学习方面取得了令人印象深刻的结果。然而,大多数方法仍然对底层图像像素进行操作,这阻碍了对表示模型的高级语义的利用。

在这项研究中,作者建议使用语义丰富的 visual tokenizer 作为 Mask 预测的重建目标,为将 MIM 从像素级提升到语义级提供了一种系统的方法

在ImageNet-1K(224大小)上,基准尺寸BEiT v2实现了85.5%的top-1精度用于微调,80.1%的top-1精度用于线性探测。大尺寸的BEiT v2在ImageNet-1K (224 size)微调上获得87.3%的top-1准确率,在ADE20K上获得56.7%的mIoU语义分割准确率。BEIT V2显著提高了模型大小、训练步骤和下游任务的性能。

PlaneSegNet: 基于单阶段实例分割CNN的快速鲁棒平面估计

室内场景平面区域的实例分割有助于视觉SLAM和如增强现实(AR)等其他需要场景理解的应用。现存的方法建立在两阶段的框架上,虽然展示出了令人满意的精度,但也受到低帧速率的限制。

于是,Yaxu Xie等人提出了一个从单张RGB图片实时估计分段平面区域的深度神经网路架构[2]。模型使用快速单级CNN架构的变种来分割平面实例,提出了快速特征非极大值抑制(FF-NMS)来减少平面边界框重叠带来的抑制误差。此外,模型还在特征金字塔网络(FPN)中使用了残差特征增强模块。该方法通过优化网络结构和超参数 实现精度和帧率之间的平衡实现了显著更高的帧率和与两阶段框架相当的分割精度。

JPerceiver:联合驾驶场景中深度、姿态和道路估计的感知网络

深度估计、视觉测程计(VO)和鸟瞰图(BEV)场景布局估计是驾驶场景感知的三个关键任务,这是自主驾驶中运动规划和导航的基础。虽然相互补充,但通常侧重于单独的任务,很少同时处理这三个任务。

Haimei Zhao等提出一种联合感知框架JPerceiver来解决这些问题[3],从单目视频序列中同时估计尺度-觉察深度、VO以及BEV布局。用跨视图几何变换(cross-view geometric transformation,CGT),根据精心设计的尺度损失,将绝对尺度从道路布局传播到深度和VO。同时,设计一个跨视图和模态转换(cross-view and cross-modal transfer,CCT)模块,用深度线索通过注意机制推理道路和车辆布局。

JPerceiver 可以通过端到端的多任务学习方式进行训练,其中 CGT 尺度损失和 CCT 模块促进任务间 知识转移有利于每个任务的特征学习。实验在 Argoverse、Nuscenes 和 KITTI 上均展示了 JPerceiver 在准确性、模型大小和推理速度方面的优越性。

基础技术

使用PyTorch和Keras实现 pix2pix GAN

用两个框架实现同一个模型到底有什么区别?下面一篇文章使用PyTorch和Keras基于U-Net使用上采样和下采样卷积制作自编码器生成和判别模型。并使用生成器和鉴别器架构进行训练。

设计哲学

如何写出整洁代码?

“代码始终是写给人看的,只是恰好能被计算机执行。” 写出整洁代码不仅需在函数、类级别上用功,也应该理解一些其他主题,如项目架构、设计原则等,软件工程是复杂(complex)的。下面一篇文章围绕“消除重复,分离关注点,统一抽象层次”十五字指导原则,抽丝剥茧讲述代码整洁的践行思维与处理细节。

工具推荐

mercure-实时通信的开放式协议

该项目是基于 HTTP 和 SSE 的一种协议,然后用 Go 语言实现的实时推送服务。相较于 WebSocket 协议它使用起来更加简单,客户端发起订阅就和请求普通的 HTTP 接口一样,而且在HTTP/2 下还可以双向通信。

References

[1]BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers:arxiv.org/abs/2208.06…: Fast and Robust Plane Estimation Using a Single-stage Instance Segmentation CNN:arxiv.org/abs/2103.15… PerceptionNetwork for Depth, Pose and Layout Estimation in Driving Scenes:arxiv.org/abs/2207.07…


感谢阅读,欢迎在评论区留言讨论哦~

P.S. 如果喜欢本篇文章,请多多 赞同、喜欢、评论、收藏,让更多的人看见我们 :D

关注 公众号「SenseParrots」,获取人工智能框架前沿业界动态与技术思考。