小 P 为你送上本周值得一看的信息~
有意见、建议与吐槽,欢迎直接给小 P 留言哦~
点击链接或扫一扫二维码即可打开对应网页。
学界前沿
微软提出BEiT-3:引领图像/文本/多模态预训练迈向“大一统”!
近期,微软亚洲研究院联合微软图灵团队推出了最新升级的BEiT-3 预训练模型[1],在广泛的视觉及视觉-语言任务上,包括目标检测(COCO)、实例分割(COCO)、语义分割(ADE20K)、图像分类(ImageNet)、视觉推理(NLVR2)、视觉问答(VQAv2)、图片描述生成(COCO)和跨模态检索(Flickr30K,COCO)等,实现了 SOTA 的迁移性能。BEiT-3 创新的设计和出色的表现为多模态研究打开了新思路,也预示着 AI 大一统渐露曙光。
BatchFormer:一种简单有效的探索样本关系通用模块
对于深度神经网络来自于数据稀缺的各种挑战,Zhi Hou等提出了一个使网络能够从训练批次(min-batch)中学习样本关系的简单有效并且即插即用Transformer模块,Batch TransFormer (BatchFormer)[2]。具体地,BatchFormer应用于每个训练批次数据的batch维度来隐式地探索样本关系。BatchFormer使每个批量的样本间能够互相促进学习,同时,他们提出一种共享分类器的策略,来消除在训练和测试的分布偏差从而达到Batch不变学习,进而使在测试的时候能够移除BatchFormer。基于DETR,他们进一步将BatchFormer扩展到像素级别的任务上面,包括目标检测,全景分割,图像分类等。改进版的BatchFormer能够即插即用于DETR, Deformable DETR, Conditional DETR, SMCA, DeiT。
商汤开源无卷积的轻量级ViT架构LightViT
一些轻量级的ViTs工作为增强架构性能,常将卷积操作集成于Transformer模块中。为探讨卷积对轻量级ViTs的必要性,商汤设计了一种无卷积的轻量级ViTs架构LightViT[3],提出一种全局而高效的信息聚合方案。除了在局部窗口内执行自注意计算之外,还在self-attention中引入额外的可学习标记来捕捉全局依赖性,在FFN中引入双维注意机制。LightViT-T在ImageNet上仅用0.7G FLOPs就实现了78.7%的准确率,比PVTv2-B0高出8.2%。代码已开源。
基础技术
几行 Python 代码提取数百个时间序列特征
传统的机器学习算法不能捕捉时间序列数据的时间顺序。数据科学家需要执行相关的特征工程,将数据的重要特征捕获到几个指标中。生成大量的时间序列特征并从中提取相关特征是一项耗时且繁琐的工作。
python的tsfresh包可以为时间序列数据生成标准的数百个通用特性。下面这篇文章深入讨论了tsfresh包的使用。从 tsfresh生成的特征可用于解决分类、预测和异常值检测用例。
快来学习吧!
设计哲学
关于自动驾驶路线之争的一些思考
自动驾驶行业内一直存在两个路线之争-感知方案之争和实现路径之争。本文抽丝剥茧分析了这两种路线之争中不同模式的区别,更是提出了一些“无人驾驶不仅仅是提高汽车运行效率的工具,其最终目标或许是形成以汽车为载体的通用人工智能技术”相关的思考。
工具推荐
gradio-用 Python 为模型创建演示界面
这是一个用于构建机器学习和数据科学演示的 Python 库,它包含多种输入和展示的组件,使用起来极其方便,只用几行代码就可以创建出演示机器学习模型的 Web 界面。
References
[1]Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks:arxiv.org/abs/2208.10…
[2]BatchFormer: Learning to Explore Sample Relationships for Robust Representation Learning:arxiv.org/abs/2203.01…
[3]LightViT: Towards Light-Weight Convolution-Free Vision Transformers:arxiv.org/abs/2207.05…
感谢阅读,欢迎在评论区留言讨论哦~
P.S. 如果喜欢本篇文章,请多多 赞同、喜欢、评论、收藏,让更多的人看见我们 :D
关注 公众号「SenseParrots」,获取人工智能框架前沿业界动态与技术思考。