[241122] Mistral 发布 Pixtral Large 模型 | PFN 开始研发生成式 AI 处理器

239 阅读5分钟

Mistral AI 发布 Pixtral Large 多模态模型及 Mistral Large 24.11 更新

Mistral AI 宣布推出 Pixtral Large,这是一个基于 Mistral Large 2 构建的 1240 亿参数开源权重多模态模型。Pixtral Large 是 Mistral 多模态系列的第二个模型,展现了前沿的图像理解能力。该模型能够 理解文档、图表和自然图像,同时保持 Mistral Large 2 领先的纯文本理解能力。该模型在 Mistral Research License (MRL) 下提供,用于研究和教育用途;商业用途则需获得 Mistral Commercial License。

Pixtral Large 主要特点:

  • 前沿的多模态性能
  • 在 MathVista、DocVQA、VQAv2 等基准测试中达到最先进水平
  • 在不影响文本性能的情况下扩展了 Mistral Large 2
  • 1230 亿参数多模态解码器,10 亿参数视觉编码器
  • 128K 上下文窗口:至少可容纳 30 张高分辨率图像
  • 使用方式:
    • 在 Le Chat 体验
    • 在 API 中以 pixtral-large-latest 的名称使用
    • 在 HuggingFace 下载

性能表现:

Pixtral Large 在一系列标准多模态基准测试中表现出色,超越了其他前沿模型。例如,在评估复杂视觉数据数学推理能力的 MathVista 测试中,Pixtral Large 达到 69.4% 的准确率,优于所有其他模型。在图表和文档理解方面,Pixtral Large 在 ChartQA 和 DocVQA 上的表现也超过了 GPT-4o 和 Gemini-1.5 Pro。此外,Pixtral Large 在 MM-MT-Bench 上也展现了竞争力,胜过 Claude-3.5 Sonnet (new)、Gemini-1.5 Pro 和 GPT-4o (latest)。

pixtral_large_benchmark.png

定性示例:

Pixtral Large 展示了

  • 多语言 OCR 和推理能力:从德语收据中提取信息并计算包含小费的总价;
  • 图表理解能力:分析损失曲线并解释模型训练问题;
  • 其他能力:从网站截图中识别使用 Mistral AI 模型的公司。

Mistral Large 24.11 更新:

除了 Pixtral Large,Mistral Large 文本模型也进行了更新,版本号为 24.11。 新模型在长上下文理解、系统提示和函数调用准确性方面都有显著改进,非常适合 RAG 和代理工作流程,适用于知识探索和共享、 文档语义理解、任务自动化和改进客户体验等企业用例。 Mistral Large 24.11 将很快在 Mistral AI 的云提供商合作伙伴处上线,首先是 Google Cloud 和 Microsoft Azure。

来源:
mistral.ai/news/pixtra…


x-cmd 用户可通过 mistral 模块来管理模型:

 # 列出所有模型
x mistral model ls

# Tip:按 ` / ` 触发搜索模式

x_mistral_model_ls_pixtral-large.png

进一步探索:

Preferred Networks 开始研发生成式 AI 处理器 MN-Core L1000

日本人工智能公司 Preferred Networks(PFN)宣布开始研发全新一代 AI 处理器 MN-Core™ L1000,专门针对生成式 AI,包括大型语言模型,预计于 2026 年上市。PFN 预计 L1000 的运算速度将比 GPU 等传统处理器提升十倍。

当前,生成式 AI 模型的训练需要大量的计算资源、数据和参数,通常使用多个 GPU 和高性能处理器。相比之下,运行生成式 AI 模型(即推理过程)所需的计算资源较少,但每次生成文本、图像等数据单元时, 都需要读取数百 GB 的数据。这使得传统处理器的内存带宽成为推理速度的主要瓶颈。为了解决这个问题,PFN 正在设计 L1000,使其能够在生成式 AI 模型的推理阶段以低功耗高速地在内存和逻辑单元之间传输数据。

MN-Core L1000 的主要特点:

L1000 结合了 PFN 自 2016 年以来开发的 MN-Core 系列的成熟架构和最新的 3D 堆叠技术。

  1. 3D 堆叠 DRAM:
    L1000 采用 3D 堆叠架构,将内存层叠在逻辑单元之上,从而实现比高端 GPU 常用的 HBM 更宽的内存带宽。L1000 使用 DRAM,这是一种比 SRAM 更经济且产量更高的选择。

  2. MN-Core 架构:
    MN-Core 系列架构的特点是芯片上密集的运算单元和分布式内存,均由软件控制,以最大限度地降低功耗和散热。该架构的能效在 PFN 的超级计算机 MN-3 上得到了验证,MN-3 曾三次荣登 Green500 榜首。该架构的能效还有助于缓解 3D 堆叠内存带来的散热挑战。

通过结合这两种技术,PFN 预计 L1000 在生成式 AI 推理方面,相比 GPU 等传统处理器,速度最高可提升十倍,功耗显著降低。

更高的速度将降低生成式 AI 模型的使用成本,并使用户能够在本地环境中运行生成式 AI 模型或将其嵌入到软件应用程序中。PFN 将继续从硬件和软件两方面促进生成式 AI 在商业和日常生活中的应用,包括开发其高性能日语基础模型 PLaMo™︎。

关于 MN-Core 系列 AI 处理器:

MN-Core™ 系列处理器由 PFN 和神户大学联合开发,针对深度学习中必不可少的矩阵运算进行了优化。为了最大限度地增加芯片上的运算单元数量,其他功能(如网络控制电路、缓存控制器和命令调度器)被集成到编译器软件而不是硬件中,从而在降低成本的同时实现了高效的深度学习操作。

此次发布的 MN-Core L1000 将进一步巩固 PFN 在 AI 硬件领域的地位,并有望为生成式 AI 的发展带来新的突破。

来源:
www.preferred.jp/en/news/pr2…




更多内容请查阅 : blog-241122


关注微信官方公众号 : oh my x

获取开源软件和 x-cmd 最新用法