Mistral 发了个 128B 开源模型，把 coding agent 搬上了云Mistral 发了个 128B 开源

Mistral 发了个 128B 开源模型，把 coding agent 搬上了云

Mistral：法国的一家做大模型（类似 OpenAI）的 AI 公司

今天放了个大招。不是又一个「我们在 benchmark 上又进步了」的公告，而是实打实地把 coding agent 从本地搬到了云端，顺便掏出了一个 128B 的开源模型。

第一时间看完了全部材料，挑几个真正值得关注的点。

Mistral Medium 3.5 是一个 128B 参数的 dense 模型，256k 上下文窗口。关键在于它是「merged model」——把指令遵循、推理、编码三件事塞进了同一套权重。

过去你得在不同模型之间切换，一个管对话，一个管写代码，一个管复杂推理。现在 Mistral 说，一个模型全搞定。

实际跑分：SWE-Bench Verified 77.6%，超过了一众更大参数的模型。τ³-Telecom 91.4，agent 能力不弱。

但最在意的不是跑分，而是两个细节：

推理强度可以按请求配置。同一个模型，快速问答用轻量推理，复杂任务拉满算力。不用换模型，不用调 prompt，一个 API 参数搞定。

自托管只要 4 张 GPU。对中小团队来说，这是真正的 self-host 门槛，不是那种「理论上可以自建，实际上要一整个机房」的画饼。

开源协议是 modified MIT，权重在 Hugging Face 上可以直接下载。

这是今天最实际的更新。

过去 coding agent 的工作方式是这样的：你开个终端，跑一个 agent，它干活的时候你干等着。如果你想同时跑三个任务，得开三个终端。你离开电脑？任务停了。

现在 Mistral Vibe 支持 remote agents。任务在云端沙箱里跑，你可以同时开多个，干完了一个一个 review。本地 CLI 会话可以直接「传送」到云端，带着历史记录和任务状态一起走。

每个 session 跑在隔离沙箱里，包括大范围文件修改和依赖安装都安全隔离。干完活直接开 GitHub PR，你 review 结果就行，不用盯每一个 keystroke。

适合什么？模块重构、测试生成、依赖升级、CI 排查、bug 修复——那些耗费时间但不需要你拍板的工作。

接入的工具链很全：GitHub、Linear、Jira、Sentry、Slack、Teams。

Le Chat 新增了 Work mode，由 Mistral Medium 3.5 驱动。这不是普通的对话模式，而是一个能真正执行多步骤任务的 agent。

跨工具工作流：一次性处理邮件、消息、日历，准备会议议程时自动拉取参会人信息、最新新闻、相关文档。

研究和综合：跨网页、内部文档、连接的工具搜索信息，输出结构化的简报或报告。

收件箱分拣和草稿回复；从团队讨论中创建 Jira issue；在 Slack 发送摘要。

每个操作都可视化，你看到每一步工具调用和推理过程。敏感操作需要显式批准。

API 价格：输入 $1.5/百万 token，输出$ 7.5/百万 token。

Le Chat Pro、Team、Enterprise 用户可以直接使用。Vibe CLI 也已经集成。

Mistral 这次的策略很清楚：不跟 OpenAI 比参数量，不跟 Anthropic 比 safety narrative，而是走「够用 + 开源 + 能自建」的路线。

128B dense 模型是一个聪明的选择。比 7B/14B 强得多，比 400B+ 容易部署。对很多团队来说，4 张 GPU 能跑起来的模型，比云端 API 调用更有吸引力——数据不出境，成本可控，延迟可优化。

Remote agents 是 coding agent 赛道的必然方向。Cursor、Windsurf、GitHub Copilot 都在往这个方向走。Mistral 的差异化在于：开源模型 + 云端执行 + 本地 CLI 的无缝衔接。

Work mode 说明 Mistral 在认真做 Le Chat 这个产品，不只是一个 API 壳子。跨工具、多步骤、可视化审批，这些都是企业场景的刚需。

但也有疑问：remote agents 的沙箱隔离能做到什么程度？大规模代码修改时的安全边界在哪？这些 Mistral 没有详细说明，可能需要等实际使用反馈。

总体来说，这是 Mistral 发布节奏最紧凑的一次——模型、产品、基础设施同时更新。对开源社区和中小团队来说，值得认真看看。