小 P 为你送上本周值得一看的信息~
有意见、建议与吐槽,欢迎直接给小 P 留言哦~
点击链接或扫一扫二维码即可打开对应网页。
学界前沿
CPM-Ant :国内首个直播训练百亿大模型
CPM-Ant 是一个开源的中文预训练语言模型,拥有 10B 参数,也是 CPM-Live 直播训练过程中的第一个里程碑。整个训练过程低成本且环境友好,不需要高昂的硬件要求和运行成本,基于增量微调(delta tuning)方法,在 CUGE 基准测试中取得了优异的结果。
CPM-Ant 相关代码、日志文件和模型参数在一个开放的许可协议下完全开源。除了完整的模型,OpenBMB 还提供了各种压缩版本以适应不同的硬件配置。CPM-Ant拥有五大卓越特性、四大创新突破、训练过程低成本且环境友好,最重要的是——完全开源!
你可以在这里访问它的github。
SegNeXt:重新思考语义分割的卷积注意力设计
自2015年FCN[1]被提出以来,语义分割开始逐渐走向深度学习算法,其常用架构为编码-解码器结构(Encoder-Decoder)。在 vision transformer 被提出之前,人们通常采用卷积神经网络(如 ResNet、VGGNet、GoogleNet 等) 作为其编码器部分;最近,由于vision transformer 在视觉领域的成功,语义分割编码器部分开始逐渐被换成基于vision transformer的模型(如 ViT、SegFormer、HRFormer等)。但是,基于 vision transformer编码器的方法真的比基于卷积神经网络的方法更好么?
为了回答这个问题,Jittor团队[2]重新思考了语义分割任务对神经网络的要求,并针对语义分割的任务专门设计了一个基于卷积神经网络的编码器MSCAN 和一个语义分割模型 SegNeXt。该方法大幅提高了当前语义分割方法的性能,并在Pascal VOC 分割排行榜上名列第一。
P2T:用于场景理解的金字塔池化Transformer
在计算机视觉领域中应用transformer技术的关键困难在于如何使计算注意力关系的过程更加高效。Wu等[3]利用金字塔池化,设计了基于的金字塔池化的MHSA(pooling-based MHSA, P-MHSA)。金字塔池化作为计算P-MHSA中降低序列长度的基本操作。使用P-MHSA替换掉MHSA后,即为P2T基础模块。通过堆叠不同数量的P2T基础模块,设计了P2T-Tiny/Small/Base/Large骨干网络,分别对应ResNet-18/50/101/152。在图像分类、语义分割、目标检测、实例分割等多个领域中,P2T均取得了比现有CNN/Transformer骨干更优异的性能。
基础技术
自定义transformers数据集
transformers是现在NLP同学必备的库,但在使用的过程中主要的代码是需要自定义数据集,那么如何舒服的读取数据,并使用transformers进行训练模型呢?下面这篇文章从:自定义文本数据集、使用transformers中trainer训练、使用Pytorch自定义训练流程等几个角度,进行了详细的方法介绍。 快来点击这里学习吧!
工具推荐
label-studio:开源的数据标注工具
支持音频、文本、图像、视频、时间序列等,多种类型数据的标注和注释工具。
mmdetection:目标检测工具箱
OpenMMLab 开源的目标检测工具箱。基于 PyTorch 的目标检测开源工具箱,支持 Faster R-CNN、Mask R-CNN、RetinaNet 等主流算法。
AI趣用
双足机器人Cassie破百米吉尼斯世界纪录
近日,双足机器人Cassie创造了100米吉尼斯世界纪录!人工智能教授Alan Fern称,正是通过完美的机械设计,以及与控制该硬件的先进人工智能深入融合,最终,Cassie在24.73秒内完成了100米冲刺。当然,光有机械设计还不够,想让这双腿学会这一行走技能,就要用到强化学习和模仿学习算法了。在此,强化学习用来解决马尔可夫决策过程(MDP)的最优策略,需要用到策略梯度算法。模仿学习则需要解决参数策略问题。随后,将关键算法DASS与强化学习、模仿学习结合一起,进而为机器人设定策略。正是机械设计与机器学习的巧妙结合让Cassie的这项纪录实现了机器人运动界的里程碑。
你可以在这里获得更多信息。
References
[1]Fully Convolutional Networks for Semantic Segmentation:arxiv.org/pdf/1605.06…
[2]SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation:arxiv.org/abs/2209.08…
[3]P2T: Pyramid Pooling Transformer for Scene Understandin:arxiv.org/abs/2106.12…
感谢阅读,欢迎在评论区留言讨论哦~
P.S. 如果喜欢本篇文章,请多多 赞同、喜欢、评论、收藏,让更多的人看见我们 :D
关注 公众号「SenseParrots」,获取人工智能框架前沿业界动态与技术思考。