Mistral 发了个 128B 开源模型,把 coding agent 搬上了云

19 阅读4分钟

Mistral 发了个 128B 开源模型,把 coding agent 搬上了云

Mistral:法国的一家做大模型(类似 OpenAI)的 AI 公司

今天放了个大招。不是又一个「我们在 benchmark 上又进步了」的公告,而是实打实地把 coding agent 从本地搬到了云端,顺便掏出了一个 128B 的开源模型。

第一时间看完了全部材料,挑几个真正值得关注的点。

模型本身:128B,单体重构三件事

Mistral Medium 3.5 是一个 128B 参数的 dense 模型,256k 上下文窗口。关键在于它是「merged model」——把指令遵循、推理、编码三件事塞进了同一套权重。

过去你得在不同模型之间切换,一个管对话,一个管写代码,一个管复杂推理。现在 Mistral 说,一个模型全搞定。

实际跑分:SWE-Bench Verified 77.6%,超过了一众更大参数的模型。τ³-Telecom 91.4,agent 能力不弱。

但最在意的不是跑分,而是两个细节:

推理强度可以按请求配置。同一个模型,快速问答用轻量推理,复杂任务拉满算力。不用换模型,不用调 prompt,一个 API 参数搞定。

自托管只要 4 张 GPU。对中小团队来说,这是真正的 self-host 门槛,不是那种「理论上可以自建,实际上要一整个机房」的画饼。

开源协议是 modified MIT,权重在 Hugging Face 上可以直接下载。

Vibe Remote Agents:coding agent 上云

这是今天最实际的更新。

过去 coding agent 的工作方式是这样的:你开个终端,跑一个 agent,它干活的时候你干等着。如果你想同时跑三个任务,得开三个终端。你离开电脑?任务停了。

现在 Mistral Vibe 支持 remote agents。任务在云端沙箱里跑,你可以同时开多个,干完了一个一个 review。本地 CLI 会话可以直接「传送」到云端,带着历史记录和任务状态一起走。

每个 session 跑在隔离沙箱里,包括大范围文件修改和依赖安装都安全隔离。干完活直接开 GitHub PR,你 review 结果就行,不用盯每一个 keystroke。

适合什么?模块重构、测试生成、依赖升级、CI 排查、bug 修复——那些耗费时间但不需要你拍板的工作。

接入的工具链很全:GitHub、Linear、Jira、Sentry、Slack、Teams。

Le Chat Work mode:不只是聊天了

Le Chat 新增了 Work mode,由 Mistral Medium 3.5 驱动。这不是普通的对话模式,而是一个能真正执行多步骤任务的 agent。

跨工具工作流:一次性处理邮件、消息、日历,准备会议议程时自动拉取参会人信息、最新新闻、相关文档。

研究和综合:跨网页、内部文档、连接的工具搜索信息,输出结构化的简报或报告。

收件箱分拣和草稿回复;从团队讨论中创建 Jira issue;在 Slack 发送摘要。

每个操作都可视化,你看到每一步工具调用和推理过程。敏感操作需要显式批准。

定价

API 价格:输入 1.5/百万token,输出1.5/百万 token,输出 7.5/百万 token。

Le Chat Pro、Team、Enterprise 用户可以直接使用。Vibe CLI 也已经集成。

看法

Mistral 这次的策略很清楚:不跟 OpenAI 比参数量,不跟 Anthropic 比 safety narrative,而是走「够用 + 开源 + 能自建」的路线。

128B dense 模型是一个聪明的选择。比 7B/14B 强得多,比 400B+ 容易部署。对很多团队来说,4 张 GPU 能跑起来的模型,比云端 API 调用更有吸引力——数据不出境,成本可控,延迟可优化。

Remote agents 是 coding agent 赛道的必然方向。Cursor、Windsurf、GitHub Copilot 都在往这个方向走。Mistral 的差异化在于:开源模型 + 云端执行 + 本地 CLI 的无缝衔接。

Work mode 说明 Mistral 在认真做 Le Chat 这个产品,不只是一个 API 壳子。跨工具、多步骤、可视化审批,这些都是企业场景的刚需。

但也有疑问:remote agents 的沙箱隔离能做到什么程度?大规模代码修改时的安全边界在哪?这些 Mistral 没有详细说明,可能需要等实际使用反馈。

总体来说,这是 Mistral 发布节奏最紧凑的一次——模型、产品、基础设施同时更新。对开源社区和中小团队来说,值得认真看看。