[240926] Pixtral 12B: 开源多模态模型,兼顾推理与文本能力 | OpenAPI 入门指南

274 阅读6分钟

Pixtral 12B: 开源多模态模型,兼顾推理与文本能力

Mistral AI 发布首个多模态模型 Pixtral 12B,采用 Apache 2.0 协议开源。

Pixtral 12B 主要特点:

  • 原生多模态,使用交错的图像和文本数据进行训练
  • 在多模态任务上表现出色,尤其擅长指令遵循
  • 在纯文本基准测试中保持了最先进的性能
  • 架构:
    • 全新训练的 4 亿参数视觉编码器
    • 基于 Mistral Nemo 的 120 亿参数多模态解码器
    • 支持可变图像大小和纵横比
    • 在 12.8 万个词元的长上下文窗口中支持多张图像
  • 使用方式:
    • 许可证:Apache 2.0
    • 在 La Plateforme 或 Le Chat 上试用

Pixtral 旨在理解自然图像和文档,在 MMMU 推理基准测试中达到了 52.5% 的成绩,超过了许多更大的模型。 该模型在图表和图形理解、文档问答、多模态推理和指令遵循等任务中表现出色。Pixtral 能够以 自然分辨率和纵横比摄取图像,使用户可以灵活地选择用于处理图像的词元数量。Pixtral 还能够在其 12.8 万个词元的长上下文窗口中处理任意数量的图像。与之前的开源模型不同,Pixtral 并没有为了在多模态任务中表现出色而牺牲文本基准性能。

性能

Pixtral 被训练成 Mistral Nemo 12B 的直接替代品。与现有开源模型相比,它的主要区别在于提供了最佳的多模态推理能力,同时又不影响关键文本能力,如指令遵循、编码和数学。

评估方案

我们通过相同的评估工具重新评估了一系列开放和封闭模型。对于每个数据集,我们都选择了能够复现领先多模态模型(GPT-4o 和 Claude-3.5-Sonnet)结果的提示词。然后,我们使用相同的提示词评估所有 模型。总的来说,Pixtral 的性能大大优于所有与其规模相当的开放模型,并且在许多情况下优于 Claude 3 Haiku 等封闭模型。Pixtral 甚至在多模态基准测试中超越或匹敌了 LLaVa OneVision 72B 等更大模 型的性能。 所有提示词都将开源。

模型MMMU (CoT)Mathvista (CoT)ChartQA (CoT)DocVQA (ANLS)VQAv2 (VQA Match)
Pixtral 12B52.558.081.890.778.6
Claude-3 Haiku50.444.869.674.668.4
Gemini-1.5 Flash 8B (0827)50.756.978.079.565.5
LLaVA-OV 72B54.457.266.991.683.8
GPT-4o68.664.685.188.977.8
Claude-3.5 Sonnet68.064.487.690.370.7
Qwen2-VL 7B47.654.438.694.575.9
LLaVA-OV 7B45.136.167.190.578.3
Phi-3 Vision40.336.472.084.942.4
Phi-3.5 Vision38.339.367.774.456.1

上表展示了 Pixtral 与其他封闭和更大规模的多模态模型的性能比较。

指令遵循

与其他开放多模态模型相比,Pixtral 在多模态和纯文本指令遵循方面表现尤为出色。**它在指令遵循方面大大优于 Qwen2-VL 7B、LLaVa-OneVision 7B 和 Phi-3.5 Vision,在文本 IF-Eval 和 MT-Bench 上比最 接近的开源模型提高了 20%。**为了进一步评估其在多模态用例中的能力,我们创建了这些基准测试的多模态版本:MM-IF-Eval 和 MM-MT-Bench。Pixtral 在多模态指令遵循基准测试中也优于开源替代方案。我们 将向社区开源 MM-MT-Bench。

架构

可变图像大小: Pixtral 的设计旨在优化速度和性能。官方训练了一个新的视觉编码器,它原生支持可变图像大小:

  • 用户只需将图像以其原生分辨率和纵横比传递给视觉编码器,将其转换为图像中每个 16x16 块的图像词元。
  • 然后将这些词元展平以创建一个序列,并在行之间和图像末尾添加 [IMG BREAK][IMG END] 词元。
  • [IMG BREAK] 词元可以让模型区分具有相同词元数量但纵横比不同的图像。

通过这种方式,Pixtral 可以用于准确理解高分辨率的复杂图表、图形和文档,同时在图标、剪贴画和公式等小图像上提供快速的推理速度。

最终架构:

  • Pixtral 有两个组件:
    • 视觉编码器(用于对图像进行词元化)
    • 多模态 Transformer 解码器(用于在给定文本和图像序列的情况下预测下一个文本词元)

该模型经过训练,可以根据交错的图像和文本数据预测下一个文本词元。这种架构允许 Pixtral 在其 12.8 万个词元的长上下文窗口中处理任意数量的任意大小的图像。

Pixtral 12B 是一个强大的开源多模态模型,在推理和文本能力方面都表现出色。其灵活的架构和强大的性能使其成为各种多模态应用的理想选择。

来源:
mistral.ai/news/pixtra…


x-cmd 用户可通过交互模式设置 Pixtral-12b-2409 为默认模型。

pixtral-12b.png

进一步探索:

OpenAPI 入门指南

一、什么是 OpenAPI?

  • OpenAPI 是一种用于描述 API(应用程序编程接口)的规范。
  • OpenAPI 规范 (OAS) 为 HTTP API 服务定义了一种开放且独立的描述格式,允许人和计算机在无需查看源代码的情况下发现和理解 API 的工作原理以及如何与之交互。
  • OpenAPI 提供了一种机器可读的结构化数据格式,人们也可以读取和编写这种格式,允许工具帮助 API 开发人员、API 产品经理、技术文档编写人员和治理团队完成整个 API 生命周期。

二、OpenAPI 的概念

  • OpenAPI 规范(OAS): 由 OpenAPI 倡议组织维护的技术文档,定义了 OpenAPI 的工作方式。
  • OpenAPI 文档: 遵循 OpenAPI 规范编写的文件,描述了 API 的具体功能,例如 openapi.yamlopenapi.json
  • OpenAPI 文档化: 根据 OpenAPI 文档自动生成的 API 参考文档,以人类可读的方式展示 API 的详细信息。

三、OpenAPI 的结构

OpenAPI 文档允许您描述 REST API:

  • 定义有关 API 的常规信息:描述、使用条款、许可证、联系人等。
  • 身份验证方法:HTTPAPI 密钥OAuth 2OpenID 等。
  • 可用端点:/users 等。
  • 从 OpenAPI 3.1 开始,可用 Webhook
  • 每个端点上的可用操作:GETPOSTPUTPATCHDELETE 等。
  • 每个操作的输入和输出参数。

四、OpenAPI 的格式

  • OpenAPI 文档可以使用 YAML 和 JSON 格式编写。
  • YAML 更易于阅读,因为它减少了标记标签的使用,并且被广泛用于编写各种软件配置。

示例:

/previews:
  post:
    summary: Create a preview
    description: |
      Create a preview for a given documentation file. The preview will have a unique
      temporary URL, and will be active for 30 minutes.
    security: []
    requestBody:
      $ref: "#/components/requestBodies/Preview"
    responses:
      "201":
        description: "Success"
        content:
          "application/json":
            schema:
              $ref: "#/components/schemas/Preview"

五、OpenAPI 的优势

  • 语言无关性: OpenAPI 描述与编程语言无关,可以使用任何语言或框架实现 API。
  • 工具支持: 许多工具支持 OpenAPI,例如 Swagger UI、Postman 和 Insomnia,可以自动生成文档、客户端库和服务器存根。
  • 改进的协作: OpenAPI 提供了一个中央位置来记录 API,从而改善了团队内部和团队之间的协作。
  • 更快的开发: OpenAPI 可以通过自动生成代码和文档来加快 API 开发过程。

OpenAPI 是一种强大的规范,可以帮助您设计、构建、记录和使用 API。它提供了许多优势,可以改善开发过程并提高 API 的质量。

来源:
docs.bump.sh/guides/open…




更多内容请查阅 : blog-240926


关注微信官方公众号 : oh my x

获取开源软件和 x-cmd 最新用法