DeepMind发布机器学习模型 Flamingo

战场小包 行业动态 10天前 阅读 551

近期,谷歌 DeepMind 实验室在一篇论文中发布 Flamingo 模型,与 GPT-3 等单一模型相比,此模型是建立在不同软件系统上的小样本视觉语言模型(VLM)。DeepMind 团队表示,它优于以往的小样本学习方法(即便使用了微调),旨在以更少的成本和更低的耗时进行训练已完成更多工作,但模型的缺点同样很明显,视觉学习与语言模型的结合并非易事。

Deepmind 实验室的 Flamingo 模型是 700 亿参数 Chinchilla 语言模型的预训练版本,Deepmind 通过在两者之间添加全新的架构组件将 Chinchilla LM 与视觉学习元素进进行融合,使训练数据保持隔离和冻结,最终得出包含 800 亿参数的 Flamingo FLM 模型。

在论文中,Flamingo 模型在 PDF 中结合文本和图像输入来输出纯文本结果。DeepMind 使用该模型创建了一个内部专用的多模式 ML 数据集,数据共包含 4330 万个实例,包括 1.85 亿张图像和 182GB 文本,同时没有对数据进行标注。

下面是一个使用 Flamingo 模型的案例: 训练过程中,仅给出几个例子来训练推理任务(识别动物、解决数学问题、计算图像中动物的类型等),当用户给出推理需求时,会传入一张图像,模型会返回对该图像的解释。

Flamingo 模型的潜在用途非常多,并不仅限于 Flamingo 对数据的处理能力,该模型还可以帮助训练能源与算力不断增长的模型。论文还指出 Flamingo 可以快速适应低资源环境和低资源任务,例如评估 PII 数据、社会偏见、刻板印象和其他可能导致人工智能偏见的问题。

Flamingo 训练的算力成本很高,但相关的能源成本 DeepMind 没有明确指出。DeepMind 还指出,Flamingo 模型还没有到达它的黄金时期,当训练数据集过小时,Flamingo 的局限性暂时无法克服。

评论