Llama 系列上新多模态！3.2 版本开源超闭源，还和 Arm 联手搞了手机优化版就在刚刚结束的 Meta 开发者大会

在多模态领域，开源模型也超闭源了！

就在刚刚结束的 Meta 开发者大会上，Llama 3.2 闪亮登场：

这回不仅具备了多模态能力，还和 Arm 等联手，推出了专门为高通和联发科硬件优化的 “移动” 版本。

具体来说，此次 Meta 一共发布了 Llama 3.2 的 4 个型号：

官方数据显示，与同等规模的 “中小型” 大模型相比，Llama 3.2 11B 和 90B 表现出了超越闭源模型的性能。

尤其是在图像理解任务方面，Llama 3.2 11B 超过了 Claude 3 Haiku，而 90B 版本更是能跟 GPT-4o-mini 掰掰手腕了。

而专为端侧打造的 3B 版本，在性能测试中表现也优于谷歌的 Gemma 2 2.6B 和微软的 Phi 3.5-mini。

如此表现，着实吸引了不少网友的关注。

有人兴奋地认为，Llama 3.2 的推出可能再次 “改变游戏规则”：

端侧 AI 正在变得越来越重要。

Meta AI 官方对此回复道：

其中一些模型参数量很小，但这个时刻意义重大。

首个视觉🦙

有关 Llama 3.2 具体能做什么，这次官方也释出了不少 demo。

先看个汇总：Llama 3.2 11B 和 90B 支持一系列多模态视觉任务，包括为图像添加字幕、根据自然语言指令完成数据可视化等等。

举个🌰，丢给 Llama 3.2 一张图片，它能把图片中的元素一一拆解，告诉你详细的图片信息：

同样，也可以反过来根据文字指令找出符合用户需求的图片。

Llama 3.2 11B 和 90B 也是首批支持多模态任务的 Llama 系列模型，为此，Meta 的研究人员打造了一个新的模型架构。

在 Llama 3.1 的基础之上，研究人员在不更新语言模型参数的情况下训练了一组适配器权重，将预训练的图像编码器集成到了预训练的语言模型中。

这样，Llama 3.2 既能保持纯文本功能的完整性，也能 get 视觉能力。

训练过程中，Llama 3.2 采用图像 - 文本对数据进行训练。训练分为多个阶段，包括在大规模有噪声数据上的预训练，和更进一步在中等规模高质量领域内和知识增强数据上的训练。

在后训练（post-training）中，研究人员通过监督微调（SFT）、拒绝采样（RS）和直接偏好优化（DPO）进行了几轮对齐。

至于 1B 和 3B 这两个轻量级模型，目的更加清晰：

随着苹果 Apple Intelligence 的推出，对于电子消费市场而言，手机等终端上的生成式 AI 已经成为标配。

而脱离云端独立运行在终端上的模型，无论是从功能还是从安全的角度，都是终端 AIGC 落地的关键。

Llama 3.2 1B 和 3B 模型由 Llama 3.1 的 8B 和 70B 模型剪枝、蒸馏得到。

可以简单理解为，这俩 “小” 模型是 Llama 3.1 教出来的“学生”。

Llama 3.2 1B 和 3B 仅支持文本任务，上下文长度为 128K。来自 Meta 合作方 Arm 的客户业务线总经理 Chris Bergey 认为：

明年初甚至今年年底，开发人员就会在应用程序中落地这两个型号的 Llama 3.2。

它们拥有更好的效率，能在 1W 功率下或在 8 毫秒以内提供答案。

不少网友也为此点赞：

Llama 3.2 的轻量级模型能真正改变 AI 在手机和其他设备上的应用。

还有网友已经第一时间实践上了：

我惊叹于这个 1B 模型的能力。

这位网友用 Llama 3.2 1B 运行了一个完整的代码库，并要求它总结代码，结果是酱婶的：

“不完美，但远超预期。”

前有 OpenAI「Her」全量开放、谷歌 Gemini 1.5 迎来重大升级，Llama 这边也紧锣密鼓跟上新动作，AI 圈的这一周，依旧是开源闭源激情碰撞，充满话题度的一周。

那么，你怎么看 Llama 这波新发布？

对了，如果你对 Llama 3.2 感兴趣，大模型竞技场已经可以试玩了。

Ollama、Groq 等也已第一时间更新支持。

— 完 —