小 P 为你送上本周值得一看的信息~
有意见、建议与吐槽,欢迎直接给小 P 留言哦~
点击链接或扫一扫二维码即可打开对应网页。
学界前沿
HorNet:融合ViT和CNN的优点的新视觉主干家族
凭借强大的空间建模机制,vision Transformers以能够从更高阶对空间交互进行建模的优势在多种视觉任务中取得了成功。于是,寻找能够对高于二阶的空间交互进行高效、有效建模的模型结构成为学界视觉研究突破的新风向。
基于此,Yongming Rao等提出了循环门控卷积(Recursive Gated Convolution, gnConv)[1],通过门控卷积和循环设计实现了完全基于卷积结构的高阶空间交互建模。gnConv十分灵活,既可以兼容各种卷积形式,又能够在不显著增加计算量的情况下,将self-attention的二阶空间交互建模扩展到任意阶。gnConv可以作为一种即插即用的单元嵌入到各种vision Transformers和卷积网络中来提升它们的性能。
图 执行不同交互顺序的代表性空间建模操作
基于gnConv,作者等人构建了一个新的通用视觉骨干家族,名为HorNet。在相近的整体结构和训练条件下,HorNet在ImageNet图像分类、COCO目标检测、ADE20K语义分割任务中,均表现出了显著优于Swin Transformers和ConvNeXt的性能。对于更大规模的训练集和模型尺寸,HorNet也有很好的扩展性。除了适合作为encoder,作者还证明了在decoder中使用gnConv可以在更少的计算量下提高密集预测的性能。
所有实验结果表明,gnConv融合了vision Transformers和CNN的优点,可以作为一种新的视觉模型基础单元。
Atlas:击败谷歌PaLM的语言模型
近日,Yann LeCun 发文盛赞一个语言模型的”以小搏大“——它在自己不太大的语言模型中从语料库中检索到精确的事实——那就是Atlas。
Atlas是一个精心设计和预训练的检索增强语言模型[2],能够用很少的训练示例学习知识密集型任务。Atlas通过使用Contriever双编码器架构的通用密集检索器,基于当前上下文检索相关文档。检索到的文档与当前上下文一起,由序列到序列模型使用融合解码器体系结构进行处理,生成相应的输出。研究者对广泛的任务进行了评估,包括MMLU、KILT和NaturalQuestions,并研究了文档索引内容的影响,表明它可以轻松更新。值得注意的是,Atlas仅使用64个示例就可以在自然问题上达到42%以上的准确率,尽管参数少了50倍,但比540B参数模型高出3%。
图 Atlas检索增强语言模型概况
微软提出TinyViT:释放小型视觉Transformer的潜力
在目前,视觉 Transformer 的一个发展趋势是扩大参数量,使之在基准任务上取得更好的性能;另一个发展的趋势是把模型变小,以支持其在手机和物联网端侧设备的部署。因此,通过知识蒸馏的方式来压缩视觉 Transformer 的工作变得尤其重要。
微软实验室提出一种快速知识蒸馏的方法,将一个新的小型高效视觉变换器家族,使用快速蒸馏框架对大规模数据集进行预训练。[3]中心思想是将知识从大型预训练模型转移到小型模型,同时使小型模型能够从大量预训练数据中获益,在预培训期间应用蒸馏来进行知识转移。大型预训练模型的Logit被稀疏化并预先存储在磁盘中,以节省内存成本和计算开销,从而较小的训练Transformers从具有计算和参数约束的大型预训练模型中自动缩小。
图 TinyViT与其他小型视觉转换器模型的比较
整个模型在精度上实现了卓越的效果。它在ImageNet-1k上仅使用21M参数实现了84.8%的顶级精度,与在ImageNet-21k上预训练的Swin-B相当,同时使用的参数减少了4.2倍。此外,随着图像分辨率的提高,TinyViT可以达到86.5%的精度,在仅使用11%参数的情况下略优于Swin-L。并且TinyViT在各种下游任务上具有良好的传输能力。
基础技术
10个常用的损失函数解释以及Python代码实现
机器学习和深度学习中,常常会使用各种各样的损失函数,这取决于我们试图解决的问题的类型、数据质量和分布以及我们使用的算法,这篇文章为我们整理了10个常见的损失函数和他们的Python代码实现。
工具推荐
Diagrams-用Python代码绘制云系统架构
程序员在做技术方案的时候,系统架构图是必不可少的。该项目将绘制架构图时所需的图标,封装成了对应的类极易调用,文档还提供了丰富的示例,让你分分钟就能上手,轻松用 Python 快速绘制出一份精美且清晰的架构图,这样不仅能省去拖拽调整连线的步骤,而且代码还可以复用,以便应对不断迭代升级的架构。
QuickRef.ME - 程序员的cheetsheets
熟悉的代码块要到处搜索乃至手敲?不如直接利用QuickRef!这个开源的开发工具和编程语言的 cheatsheets 查阅网站,包含多种语言与工具。
AI趣用
AI界的绘画大师DALL·E 2
一家名为OpenAI的人工智能研究实验室在2020年6月开发了GPT-3。GPT-3是一种语言模型,目的是为了使用深度学习分类或产生人类可以理解的自然语言。基于GPT-3,OpenAI开发了DALL·E。2022年4月,OpenAI又推出了DALL·E的全新版本,DALL·E 2。DALL·E 2能基于文字描述生成高质量、分辨率的图片,不断的被试用者用于生成奇幻者小说人物,如《指环王》、《权利的游戏》等。
References
[1]HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions: hornet.ivg-research.xyz
[2]Few-shot Learning with Retrieval Augmented Language Models:arxiv.org/pdf/2208.03…
[3]TinyViT: Fast Pretraining Distillation for Small Vision Transformers:arxiv.org/pdf/2207.10…
感谢阅读,欢迎在评论区留言讨论哦~
P.S. 如果喜欢本篇文章,请多多 赞同、喜欢、评论、收藏,让更多的人看见我们 :D
关注 公众号「SenseParrots」,获取人工智能框架前沿业界动态与技术思考。