Mistral 发了个 128B 开源模型,把 coding agent 搬上了云

Mistral:法国的一家做大模型(类似 OpenAI)的 AI 公司
今天放了个大招。不是又一个「我们在 benchmark 上又进步了」的公告,而是实打实地把 coding agent 从本地搬到了云端,顺便掏出了一个 128B 的开源模型。
第一时间看完了全部材料,挑几个真正值得关注的点。
模型本身:128B,单体重构三件事
Mistral Medium 3.5 是一个 128B 参数的 dense 模型,256k 上下文窗口。关键在于它是「merged model」——把指令遵循、推理、编码三件事塞进了同一套权重。
过去你得在不同模型之间切换,一个管对话,一个管写代码,一个管复杂推理。现在 Mistral 说,一个模型全搞定。
实际跑分:SWE-Bench Verified 77.6%,超过了一众更大参数的模型。τ³-Telecom 91.4,agent 能力不弱。
但最在意的不是跑分,而是两个细节:
推理强度可以按请求配置。同一个模型,快速问答用轻量推理,复杂任务拉满算力。不用换模型,不用调 prompt,一个 API 参数搞定。
自托管只要 4 张 GPU。对中小团队来说,这是真正的 self-host 门槛,不是那种「理论上可以自建,实际上要一整个机房」的画饼。
开源协议是 modified MIT,权重在 Hugging Face 上可以直接下载。
Vibe Remote Agents:coding agent 上云
这是今天最实际的更新。
过去 coding agent 的工作方式是这样的:你开个终端,跑一个 agent,它干活的时候你干等着。如果你想同时跑三个任务,得开三个终端。你离开电脑?任务停了。
现在 Mistral Vibe 支持 remote agents。任务在云端沙箱里跑,你可以同时开多个,干完了一个一个 review。本地 CLI 会话可以直接「传送」到云端,带着历史记录和任务状态一起走。
每个 session 跑在隔离沙箱里,包括大范围文件修改和依赖安装都安全隔离。干完活直接开 GitHub PR,你 review 结果就行,不用盯每一个 keystroke。
适合什么?模块重构、测试生成、依赖升级、CI 排查、bug 修复——那些耗费时间但不需要你拍板的工作。
接入的工具链很全:GitHub、Linear、Jira、Sentry、Slack、Teams。
Le Chat Work mode:不只是聊天了
Le Chat 新增了 Work mode,由 Mistral Medium 3.5 驱动。这不是普通的对话模式,而是一个能真正执行多步骤任务的 agent。
跨工具工作流:一次性处理邮件、消息、日历,准备会议议程时自动拉取参会人信息、最新新闻、相关文档。
研究和综合:跨网页、内部文档、连接的工具搜索信息,输出结构化的简报或报告。
收件箱分拣和草稿回复;从团队讨论中创建 Jira issue;在 Slack 发送摘要。
每个操作都可视化,你看到每一步工具调用和推理过程。敏感操作需要显式批准。
定价
API 价格:输入 7.5/百万 token。
Le Chat Pro、Team、Enterprise 用户可以直接使用。Vibe CLI 也已经集成。
看法
Mistral 这次的策略很清楚:不跟 OpenAI 比参数量,不跟 Anthropic 比 safety narrative,而是走「够用 + 开源 + 能自建」的路线。
128B dense 模型是一个聪明的选择。比 7B/14B 强得多,比 400B+ 容易部署。对很多团队来说,4 张 GPU 能跑起来的模型,比云端 API 调用更有吸引力——数据不出境,成本可控,延迟可优化。
Remote agents 是 coding agent 赛道的必然方向。Cursor、Windsurf、GitHub Copilot 都在往这个方向走。Mistral 的差异化在于:开源模型 + 云端执行 + 本地 CLI 的无缝衔接。
Work mode 说明 Mistral 在认真做 Le Chat 这个产品,不只是一个 API 壳子。跨工具、多步骤、可视化审批,这些都是企业场景的刚需。
但也有疑问:remote agents 的沙箱隔离能做到什么程度?大规模代码修改时的安全边界在哪?这些 Mistral 没有详细说明,可能需要等实际使用反馈。
总体来说,这是 Mistral 发布节奏最紧凑的一次——模型、产品、基础设施同时更新。对开源社区和中小团队来说,值得认真看看。