[240926] Pixtral 12B: 开源多模态模型，兼顾推理与文本能力

Pixtral 12B: 开源多模态模型，兼顾推理与文本能力

Mistral AI 发布首个多模态模型 Pixtral 12B，采用 Apache 2.0 协议开源。

Pixtral 12B 主要特点：

原生多模态，使用交错的图像和文本数据进行训练
在多模态任务上表现出色，尤其擅长指令遵循
在纯文本基准测试中保持了最先进的性能
架构：
- 全新训练的 4 亿参数视觉编码器
- 基于 Mistral Nemo 的 120 亿参数多模态解码器
- 支持可变图像大小和纵横比
- 在 12.8 万个词元的长上下文窗口中支持多张图像
使用方式：
- 许可证：Apache 2.0
- 在 La Plateforme 或 Le Chat 上试用

Pixtral 旨在理解自然图像和文档，在 MMMU 推理基准测试中达到了 52.5% 的成绩，超过了许多更大的模型。 该模型在图表和图形理解、文档问答、多模态推理和指令遵循等任务中表现出色。Pixtral 能够以自然分辨率和纵横比摄取图像，使用户可以灵活地选择用于处理图像的词元数量。Pixtral 还能够在其 12.8 万个词元的长上下文窗口中处理任意数量的图像。与之前的开源模型不同，Pixtral 并没有为了在多模态任务中表现出色而牺牲文本基准性能。

性能

Pixtral 被训练成 Mistral Nemo 12B 的直接替代品。与现有开源模型相比，它的主要区别在于提供了最佳的多模态推理能力，同时又不影响关键文本能力，如指令遵循、编码和数学。

评估方案

我们通过相同的评估工具重新评估了一系列开放和封闭模型。对于每个数据集，我们都选择了能够复现领先多模态模型（GPT-4o 和 Claude-3.5-Sonnet）结果的提示词。然后，我们使用相同的提示词评估所有模型。总的来说，Pixtral 的性能大大优于所有与其规模相当的开放模型，并且在许多情况下优于 Claude 3 Haiku 等封闭模型。Pixtral 甚至在多模态基准测试中超越或匹敌了 LLaVa OneVision 72B 等更大模型的性能。 所有提示词都将开源。

模型	MMMU (CoT)	Mathvista (CoT)	ChartQA (CoT)	DocVQA (ANLS)	VQAv2 (VQA Match)
Pixtral 12B	52.5	58.0	81.8	90.7	78.6
Claude-3 Haiku	50.4	44.8	69.6	74.6	68.4
Gemini-1.5 Flash 8B (0827)	50.7	56.9	78.0	79.5	65.5
LLaVA-OV 72B	54.4	57.2	66.9	91.6	83.8
GPT-4o	68.6	64.6	85.1	88.9	77.8
Claude-3.5 Sonnet	68.0	64.4	87.6	90.3	70.7
Qwen2-VL 7B	47.6	54.4	38.6	94.5	75.9
LLaVA-OV 7B	45.1	36.1	67.1	90.5	78.3
Phi-3 Vision	40.3	36.4	72.0	84.9	42.4
Phi-3.5 Vision	38.3	39.3	67.7	74.4	56.1

上表展示了 Pixtral 与其他封闭和更大规模的多模态模型的性能比较。

指令遵循

与其他开放多模态模型相比，Pixtral 在多模态和纯文本指令遵循方面表现尤为出色。**它在指令遵循方面大大优于 Qwen2-VL 7B、LLaVa-OneVision 7B 和 Phi-3.5 Vision，在文本 IF-Eval 和 MT-Bench 上比最接近的开源模型提高了 20%。**为了进一步评估其在多模态用例中的能力，我们创建了这些基准测试的多模态版本：MM-IF-Eval 和 MM-MT-Bench。Pixtral 在多模态指令遵循基准测试中也优于开源替代方案。我们将向社区开源 MM-MT-Bench。

架构

可变图像大小： Pixtral 的设计旨在优化速度和性能。官方训练了一个新的视觉编码器，它原生支持可变图像大小：

用户只需将图像以其原生分辨率和纵横比传递给视觉编码器，将其转换为图像中每个 16x16 块的图像词元。
然后将这些词元展平以创建一个序列，并在行之间和图像末尾添加 [IMG BREAK] 和 [IMG END] 词元。
[IMG BREAK] 词元可以让模型区分具有相同词元数量但纵横比不同的图像。

通过这种方式，Pixtral 可以用于准确理解高分辨率的复杂图表、图形和文档，同时在图标、剪贴画和公式等小图像上提供快速的推理速度。

最终架构：

Pixtral 有两个组件：
- 视觉编码器（用于对图像进行词元化）
- 多模态 Transformer 解码器（用于在给定文本和图像序列的情况下预测下一个文本词元）

该模型经过训练，可以根据交错的图像和文本数据预测下一个文本词元。这种架构允许 Pixtral 在其 12.8 万个词元的长上下文窗口中处理任意数量的任意大小的图像。

Pixtral 12B 是一个强大的开源多模态模型，在推理和文本能力方面都表现出色。其灵活的架构和强大的性能使其成为各种多模态应用的理想选择。

来源：
mistral.ai/news/pixtra…

x-cmd 用户可通过交互模式设置 Pixtral-12b-2409 为默认模型。

进一步探索：

www.x-cmd.com/mod/mistral

OpenAPI 入门指南

一、什么是 OpenAPI？

OpenAPI 是一种用于描述 API（应用程序编程接口）的规范。
OpenAPI 规范 (OAS) 为 HTTP API 服务定义了一种开放且独立的描述格式，允许人和计算机在无需查看源代码的情况下发现和理解 API 的工作原理以及如何与之交互。
OpenAPI 提供了一种机器可读的结构化数据格式，人们也可以读取和编写这种格式，允许工具帮助 API 开发人员、API 产品经理、技术文档编写人员和治理团队完成整个 API 生命周期。

二、OpenAPI 的概念

OpenAPI 规范（OAS）: 由 OpenAPI 倡议组织维护的技术文档，定义了 OpenAPI 的工作方式。
OpenAPI 文档: 遵循 OpenAPI 规范编写的文件，描述了 API 的具体功能，例如 openapi.yaml 或 openapi.json。
OpenAPI 文档化: 根据 OpenAPI 文档自动生成的 API 参考文档，以人类可读的方式展示 API 的详细信息。

三、OpenAPI 的结构

OpenAPI 文档允许您描述 REST API：

定义有关 API 的常规信息：描述、使用条款、许可证、联系人等。
身份验证方法：HTTP、API 密钥、OAuth 2、OpenID 等。
可用端点：/users 等。
从 OpenAPI 3.1 开始，可用 Webhook。
每个端点上的可用操作：GET、POST、PUT、PATCH、DELETE 等。
每个操作的输入和输出参数。

四、OpenAPI 的格式

OpenAPI 文档可以使用 YAML 和 JSON 格式编写。
YAML 更易于阅读，因为它减少了标记标签的使用，并且被广泛用于编写各种软件配置。

示例：

/previews:
  post:
    summary: Create a preview
    description: |
      Create a preview for a given documentation file. The preview will have a unique
      temporary URL, and will be active for 30 minutes.
    security: []
    requestBody:
      $ref: "#/components/requestBodies/Preview"
    responses:
      "201":
        description: "Success"
        content:
          "application/json":
            schema:
              $ref: "#/components/schemas/Preview"

五、OpenAPI 的优势

语言无关性: OpenAPI 描述与编程语言无关，可以使用任何语言或框架实现 API。
工具支持: 许多工具支持 OpenAPI，例如 Swagger UI、Postman 和 Insomnia，可以自动生成文档、客户端库和服务器存根。
改进的协作: OpenAPI 提供了一个中央位置来记录 API，从而改善了团队内部和团队之间的协作。
更快的开发: OpenAPI 可以通过自动生成代码和文档来加快 API 开发过程。

OpenAPI 是一种强大的规范，可以帮助您设计、构建、记录和使用 API。它提供了许多优势，可以改善开发过程并提高 API 的质量。

来源：
docs.bump.sh/guides/open…

更多内容请查阅 : blog-240926

关注微信官方公众号 : oh my x

获取开源软件和 x-cmd 最新用法

[240926] Pixtral 12B: 开源多模态模型，兼顾推理与文本能力 | OpenAPI 入门指南