谷歌大脑的研究人员宣布了一个包含20亿个参数的深度学习计算机视觉(CV)模型。该模型在30亿张图像上进行了训练,在ImageNet上达到了90.45%的最高准确率,创造了新的最先进的记录。
该团队在arXiv上发表的一篇论文中描述了该模型和实验。该模型被称为ViT-G/14,是基于谷歌最近在视觉变形器(ViT)方面的工作。ViT-G/14在几个基准上的表现超过了之前的最先进的解决方案,包括ImageNet、ImageNet-v2和VTAB-1k。在几张照片的图像识别任务中,准确率提高了五个百分点以上。研究人员还训练了该模型的几个较小的版本,以研究该架构的缩放规律,指出其性能遵循幂律函数,类似于用于自然语言处理(NLP)任务的Transformer模型。
2017年谷歌研究人员首次描述了Transformer架构,该架构已成为NLP深度学习模型的领先设计,OpenAI的GPT-3是最著名的模型之一。去年,OpenAI发表了一篇论文,描述了这些模型的缩放规律。通过训练许多不同规模的类似模型,并改变训练数据量和计算能力,OpenAI确定了一个用于估计模型准确性的幂律函数。此外,OpenAI发现,大型模型不仅性能更好,而且计算效率更高。
与NLP模型相比,大多数最先进的CV深度学习模型使用卷积神经网络(CNN)架构。该架构最早描述于1989年,在2012年一个CNN模型赢得ImageNet挑战赛后,该架构获得了主导地位。 随着最近变形金刚在NLP领域的成功,研究人员已经开始研究其在视觉任务上的表现;例如,OpenAI最近开发了一个基于GPT-3的图像生成系统。特别是谷歌在这个领域一直很活跃,在2020年底使用他们专有的JFT-300M数据集来训练一个600M参数的ViT模型。
新的ViT-G/14模型是在更新版本的数据集JFT-3B上预训练的,该数据集包含近30亿张图片。研究团队对ViT架构进行了多项改进,提高了内存利用率,使模型能够适应单个TPUv3内核。为了评估ViT-G/14和其他较小的模型的性能,研究小组对预训练的模型进行了几次射击和微调的转移学习。该团队利用这些结果制定了类似于NLP法则的扩展法则。
- 根据幂律函数,扩大计算、模型和数据的规模,可以提高准确性
- 准确率在较小的模型中会遇到瓶颈
- 大型模型从大型数据集中获益
ImageNet排行榜目前将ViT-G/14的得分排在第一位。接下来得分最高的八个模型也是由谷歌研究人员开发的,而第十名的模型是由Facebook开发的。在Twitter的讨论中,有用户问谷歌是否计划公布ViT-G/14的代码和模型权重。研究团队成员Lucas Beyer回答说。
权重肯定不会,它是在内部数据上训练出来的。代码,好问题。我们不打算这样做,因为它确实非常接近公开的原始ViT代码,但也许在那里添加新的部分会是一个好主意。
谷歌在GitHub上发布了去年600M参数的ViT模型的代码。