Llama 系列上新多模态!3.2 版本开源超闭源,还和 Arm 联手搞了手机优化版

407 阅读4分钟

在多模态领域,开源模型也超闭源了!

就在刚刚结束的 Meta 开发者大会上,Llama 3.2 闪亮登场:

这回不仅具备了多模态能力,还和 Arm 等联手,推出了专门为高通和联发科硬件优化的 “移动” 版本。

具体来说,此次 Meta 一共发布了 Llama 3.2 的 4 个型号:

  • 110 亿和 900 亿参数的多模态版本

  • 10 亿参数和 30 亿参数的轻量级纯文本模型

官方数据显示,与同等规模的 “中小型” 大模型相比,Llama 3.2 11B 和 90B 表现出了超越闭源模型的性能。

尤其是在图像理解任务方面,Llama 3.2 11B 超过了 Claude 3 Haiku,而 90B 版本更是能跟 GPT-4o-mini 掰掰手腕了。

而专为端侧打造的 3B 版本,在性能测试中表现也优于谷歌的 Gemma 2 2.6B 和微软的 Phi 3.5-mini。

如此表现,着实吸引了不少网友的关注。

有人兴奋地认为,Llama 3.2 的推出可能再次 “改变游戏规则”:

端侧 AI 正在变得越来越重要。

Meta AI 官方对此回复道:

其中一些模型参数量很小,但这个时刻意义重大。

首个视觉🦙

有关 Llama 3.2 具体能做什么,这次官方也释出了不少 demo。

先看个汇总:Llama 3.2 11B 和 90B 支持一系列多模态视觉任务,包括为图像添加字幕、根据自然语言指令完成数据可视化等等。

举个🌰,丢给 Llama 3.2 一张图片,它能把图片中的元素一一拆解,告诉你详细的图片信息:

同样,也可以反过来根据文字指令找出符合用户需求的图片。

Llama 3.2 11B 和 90B 也是首批支持多模态任务的 Llama 系列模型,为此,Meta 的研究人员打造了一个新的模型架构。

在 Llama 3.1 的基础之上,研究人员在不更新语言模型参数的情况下训练了一组适配器权重,将预训练的图像编码器集成到了预训练的语言模型中。

这样,Llama 3.2 既能保持纯文本功能的完整性,也能 get 视觉能力。

训练过程中,Llama 3.2 采用图像 - 文本对数据进行训练。训练分为多个阶段,包括在大规模有噪声数据上的预训练,和更进一步在中等规模高质量领域内和知识增强数据上的训练。

在后训练(post-training)中,研究人员通过监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO)进行了几轮对齐。

专为端侧打造的 “小” 模型

至于 1B 和 3B 这两个轻量级模型,目的更加清晰:

随着苹果 Apple Intelligence 的推出,对于电子消费市场而言,手机等终端上的生成式 AI 已经成为标配。

而脱离云端独立运行在终端上的模型,无论是从功能还是从安全的角度,都是终端 AIGC 落地的关键。

端侧写作助手

Llama 3.2 1B 和 3B 模型由 Llama 3.1 的 8B 和 70B 模型剪枝、蒸馏得到。

可以简单理解为,这俩 “小” 模型是 Llama 3.1 教出来的“学生”。

Llama 3.2 1B 和 3B 仅支持文本任务,上下文长度为 128K。来自 Meta 合作方 Arm 的客户业务线总经理 Chris Bergey 认为:

明年初甚至今年年底,开发人员就会在应用程序中落地这两个型号的 Llama 3.2。

它们拥有更好的效率,能在 1W 功率下或在 8 毫秒以内提供答案。

不少网友也为此点赞:

Llama 3.2 的轻量级模型能真正改变 AI 在手机和其他设备上的应用。

还有网友已经第一时间实践上了:

我惊叹于这个 1B 模型的能力。

这位网友用 Llama 3.2 1B 运行了一个完整的代码库,并要求它总结代码,结果是酱婶的:

“不完美,但远超预期。”

前有 OpenAI「Her」全量开放、谷歌 Gemini 1.5 迎来重大升级,Llama 这边也紧锣密鼓跟上新动作,AI 圈的这一周,依旧是开源闭源激情碰撞,充满话题度的一周。

那么,你怎么看 Llama 这波新发布?

对了,如果你对 Llama 3.2 感兴趣,大模型竞技场已经可以试玩了。

Ollama、Groq 等也已第一时间更新支持。

参考链接:
[1]ai.meta.com/blog/llama-…
[2]www.cnet.com/tech/mobile…
[3]news.ycombinator.com/item?id=416…