[241122] Mistral 发布 Pixtral Large 模型 | PFN 开始研发生成式 AI 处理器

Mistral AI 发布 Pixtral Large 多模态模型及 Mistral Large 24.11 更新

Mistral AI 宣布推出 Pixtral Large，这是一个基于 Mistral Large 2 构建的 1240 亿参数开源权重多模态模型。Pixtral Large 是 Mistral 多模态系列的第二个模型，展现了前沿的图像理解能力。该模型能够理解文档、图表和自然图像，同时保持 Mistral Large 2 领先的纯文本理解能力。该模型在 Mistral Research License (MRL) 下提供，用于研究和教育用途；商业用途则需获得 Mistral Commercial License。

Pixtral Large 主要特点：

前沿的多模态性能
在 MathVista、DocVQA、VQAv2 等基准测试中达到最先进水平
在不影响文本性能的情况下扩展了 Mistral Large 2
1230 亿参数多模态解码器，10 亿参数视觉编码器
128K 上下文窗口：至少可容纳 30 张高分辨率图像
使用方式：
- 在 Le Chat 体验
- 在 API 中以 pixtral-large-latest 的名称使用
- 在 HuggingFace 下载

性能表现：

Pixtral Large 在一系列标准多模态基准测试中表现出色，超越了其他前沿模型。例如，在评估复杂视觉数据数学推理能力的 MathVista 测试中，Pixtral Large 达到 69.4% 的准确率，优于所有其他模型。在图表和文档理解方面，Pixtral Large 在 ChartQA 和 DocVQA 上的表现也超过了 GPT-4o 和 Gemini-1.5 Pro。此外，Pixtral Large 在 MM-MT-Bench 上也展现了竞争力，胜过 Claude-3.5 Sonnet (new)、Gemini-1.5 Pro 和 GPT-4o (latest)。

定性示例：

Pixtral Large 展示了

多语言 OCR 和推理能力：从德语收据中提取信息并计算包含小费的总价；
图表理解能力：分析损失曲线并解释模型训练问题；
其他能力：从网站截图中识别使用 Mistral AI 模型的公司。

Mistral Large 24.11 更新：

除了 Pixtral Large，Mistral Large 文本模型也进行了更新，版本号为 24.11。新模型在长上下文理解、系统提示和函数调用准确性方面都有显著改进，非常适合 RAG 和代理工作流程，适用于知识探索和共享、文档语义理解、任务自动化和改进客户体验等企业用例。 Mistral Large 24.11 将很快在 Mistral AI 的云提供商合作伙伴处上线，首先是 Google Cloud 和 Microsoft Azure。

来源：
mistral.ai/news/pixtra…

x-cmd 用户可通过 mistral 模块来管理模型：

 # 列出所有模型
x mistral model ls

# Tip：按 ` / ` 触发搜索模式

进一步探索：

cn.x-cmd.com/mod/mistral

Preferred Networks 开始研发生成式 AI 处理器 MN-Core L1000

日本人工智能公司 Preferred Networks（PFN）宣布开始研发全新一代 AI 处理器 MN-Core™ L1000，专门针对生成式 AI，包括大型语言模型，预计于 2026 年上市。PFN 预计 L1000 的运算速度将比 GPU 等传统处理器提升十倍。

当前，生成式 AI 模型的训练需要大量的计算资源、数据和参数，通常使用多个 GPU 和高性能处理器。相比之下，运行生成式 AI 模型（即推理过程）所需的计算资源较少，但每次生成文本、图像等数据单元时，都需要读取数百 GB 的数据。这使得传统处理器的内存带宽成为推理速度的主要瓶颈。为了解决这个问题，PFN 正在设计 L1000，使其能够在生成式 AI 模型的推理阶段以低功耗高速地在内存和逻辑单元之间传输数据。

MN-Core L1000 的主要特点：

L1000 结合了 PFN 自 2016 年以来开发的 MN-Core 系列的成熟架构和最新的 3D 堆叠技术。

3D 堆叠 DRAM：
L1000 采用 3D 堆叠架构，将内存层叠在逻辑单元之上，从而实现比高端 GPU 常用的 HBM 更宽的内存带宽。L1000 使用 DRAM，这是一种比 SRAM 更经济且产量更高的选择。
MN-Core 架构：
MN-Core 系列架构的特点是芯片上密集的运算单元和分布式内存，均由软件控制，以最大限度地降低功耗和散热。该架构的能效在 PFN 的超级计算机 MN-3 上得到了验证，MN-3 曾三次荣登 Green500 榜首。该架构的能效还有助于缓解 3D 堆叠内存带来的散热挑战。

通过结合这两种技术，PFN 预计 L1000 在生成式 AI 推理方面，相比 GPU 等传统处理器，速度最高可提升十倍，功耗显著降低。

更高的速度将降低生成式 AI 模型的使用成本，并使用户能够在本地环境中运行生成式 AI 模型或将其嵌入到软件应用程序中。PFN 将继续从硬件和软件两方面促进生成式 AI 在商业和日常生活中的应用，包括开发其高性能日语基础模型 PLaMo™︎。

关于 MN-Core 系列 AI 处理器：

MN-Core™ 系列处理器由 PFN 和神户大学联合开发，针对深度学习中必不可少的矩阵运算进行了优化。为了最大限度地增加芯片上的运算单元数量，其他功能（如网络控制电路、缓存控制器和命令调度器）被集成到编译器软件而不是硬件中，从而在降低成本的同时实现了高效的深度学习操作。

此次发布的 MN-Core L1000 将进一步巩固 PFN 在 AI 硬件领域的地位，并有望为生成式 AI 的发展带来新的突破。

来源：
www.preferred.jp/en/news/pr2…

更多内容请查阅 : blog-241122

关注微信官方公众号 : oh my x

获取开源软件和 x-cmd 最新用法