Mistral Medium 3.5 从入门到精通,一步到位
它来了,带着128B参数和4张显卡的诚意
昨晚上刷Hacker News,被一条423 points的热帖砸了一脸——Mistral Medium 3.5 发布了。
看了下细节,直接上头了。
128B参数的dense模型,256K context window,开源weights,Modified MIT License,而且——4张GPU就能自部署。
说真的,最近开源大模型卷得我都有点审美疲劳了。但这次不一样。Mistral这波不是简单发了个模型,而是把remote coding agents + Le Chat Work mode 一起端上来了。等于说:你不但能用这个模型,还能直接体验它驱动的云端AI编程助手。
我花了一晚上把API跑通、把Vibe CLI搭起来、写了个小demo。顺便踩了几个坑,来,全写出来。
环境准备
硬件要求
官方说4张GPU就能跑。我手头没有4卡机(谁家好人天天有4卡啊),所以直接走API体验。
API接入
Mistral Medium 3.5 定价:7.5/M output tokens。相比之前的一些模型,这个价格其实挺能打的——毕竟128B还带这么强的coding能力。
搞个API key先:
# 注册 Mistral 账号 -> La Plateforme -> API Keys
# 或者直接 pip 装客户端
pip install mistralai
from mistralai import Mistral
client = Mistral(api_key="你的key")
# 最基础的调用
chat_response = client.chat.complete(
model="mistral-medium-3.5",
messages=[
{"role": "user", "content": "写一个Python函数,计算两个大数的最大公约数"}
]
)
print(chat_response.choices[0].message.content)
就这么简单。第一行就通了——我一开始还以为要配什么环境变量折腾半天,结果pip install完直接跑。
Vibe CLI(云端编程agent)
这个才是重头戏。Mistral Vibe 是一个 coding agent CLI,之前只能本地跑,现在可以spawn到云端了。
# 安装 Vibe CLI
pip install mistral-vibe
# 启动一个本地coding session
vibe
# 在session里输入 /cloud 就能把当前会话teleport到云端
# 然后你就可以关掉终端去喝咖啡了——它会在云端继续跑
我觉得最离谱的是这个 teleport 功能:本地写到一半的代码,改bug改到一半的会话,直接 /cloud 就飞到云端继续了。有点像 tmux 的 detach,但它是整了个云IDE在背后跑。
关键API调用实战
1. 配置reasoning effort
这个模型支持两种推理模式:none 和 high。同一个模型,问简单问题用 none,问复杂问题用 high,很灵活。
# 高推理模式(适合复杂coding任务)
chat_response = client.chat.complete(
model="mistral-medium-3.5",
messages=[
{"role": "system", "content": "你是一名资深Python工程师"},
{"role": "user", "content": "实现一个LRU Cache,要求线程安全"}
],
reasoning_effort="high" # 关键:默认none,复杂任务设high
)
试了一下区别:设 high 的回答会长很多,会给出具体实现思路和多个方案的对比;设 none 就比较直接,干完活就完事。日常coding设none够了,写架构文档或者debug复杂问题设high。
2. SWE-Bench 77.6% 是个什么水平
官方数据说它在 SWE-Bench Verified 上拿了 77.6%。
找参考系的话:超过了 Devstral 2 和 Qwen3.5 397B A17B。一个128B的dense模型干翻397B的MoE模型……我只能说法国佬确实有点东西。
实测了一个真实issue——从一个开源项目里找了一个bug report,丢给Medium 3.5让它修。它确实能理解上下文、定位问题代码、给出diff。虽然没有一次就完全正确,但方向是对的,后面手动调一下就能出PR了。
3. Vibe远程agent实战
这个才是这次更新的杀手锏。
# 从Le Chat直接启动coding任务
# 在 chat.mistral.ai 里勾选 Work mode
# 然后输入:
"帮我看看这个GitHub仓库的README,写一个API client,支持GET和POST,带错误处理"
效果是这样的:Le Chat 里的 agent 会启动一个 Vibe coding session,在云端跑,然后你可以切出去干别的事。跑完了它会在对话里通知你。
我也试了并行跑多个任务:
# 开两个终端,分别跑不同的task
# Terminal 1: 写一个数据清洗pipeline
vibe --task "写一个数据清洗的Python脚本,处理CSV中的缺失值"
# Terminal 2: 写单元测试
vibe --task "为上面那个脚本写pytest单元测试"
两个agent同时在云端跑,互不干扰。跑完之后各自开PR。我只需要去review就行了。
效果演示(文字版)
测试1:代码生成质量
Prompt: "写一个FastAPI应用,包含用户注册、登录、JWT鉴权中间件"
输出:给出了完整的 main.py(约120行),包含:
- 用户模型(Pydantic)
- JWT token 生成和验证
- 密码哈希(bcrypt)
- 注册/登录端点
- 依赖注入实现的鉴权中间件
评价:代码质量很高,直接复制就能跑。比我预期好——之前试过几个模型在JWT这块有时会编一些不存在的库名,Medium 3.5没犯这个错。
测试2:长上下文处理(256K)
找了个GitHub上7000+行的项目,把核心文件贴进去让它做代码审查。256K context window 确实能吃下整个项目。回答没有说一半就"忘了前面的内容"——这个在很多模型上都是翻车点,Medium 3.5表现得相当稳定。
测试3:Vibe远程agent并行
同时发了3个task(重构一个模块、写测试、升级依赖)。三个agent同时跑,大概5分钟后全部完成并在GitHub上各开了一个PR。
常见问题FAQ
Q1: 我只有一张4090,能跑吗?
不能直接跑全精度。 128B dense模型大概需要240GB显存(BF16)。4张A100 80GB才能跑。但有几个变通方案:
- 等社区出GGUF量化版(4bit大概需要70GB,两张卡差不多)
- 或者直接用API($1.5/M token挺便宜的,写一个项目可能花不到2块钱)
- 官方提供了 FP8 量化版(HuggingFace上有),一张H100就能跑了
Q2: Medium 3.5 和 Le Chat 的 Work mode 有什么区别?
Work mode 是 在Le Chat里直接用 agent 做多步任务——比如"读我的邮件、拉最近的Jira issues、写一个周报摘要"。它是一个上层应用,运行在Medium 3.5之上。
而Medium 3.5本身是一个模型,你可以在任何地方调用它(API、本地部署、Vibe CLI)。
简单说:模型 = 引擎,Work mode = 装备了引擎的整车。
Q3: Vibe remote agent 能用中文交互吗?
可以。Medium 3.5支持中文(HuggingFace标签里有zh语言标签)。我试了中文prompt,它理解完全没问题,代码注释也是中文的。但回答质量上英文稍好——毕竟它训练数据主要来自英文。建议coding prompt用英文写,注释用中文加,这样最优解。
Q4: 和 Claude Code、Cursor 比怎么样?
说实话,生态上还有差距。Claude Code和Cursor已经有一堆插件和社区模板了。但Vibe有几个独特优势:
- 云端并行跑——Claude Code目前还是在本地跑,Vibe的agent是云原生的
- 4卡自部署——Claude是闭源的,Mistral重训练量你也动不了
- 价格——$1.5/M input,比Anthropic便宜不少
- 它集成了GitHub/Linear/Jira/Sentry/Slack,直接和企业工作流打通了
我会保持观望,但方向确实对了。
Q5: 我想自己微调这个模型,怎么做?
官方release的是open weights(Modified MIT License),你去HuggingFace下载 mistralai/Mistral-Medium-3.5-128B 就行。128B参数用LoRA微调大概需要40-50GB显存。建议用 Unsloth 或者 Axolotl 来微调,效率最高。
写在最后
说真的,Mistral这波操作让我有点意外。
不是因为它模型做得好——法国人在AI上一直有两把刷子。而是它把模型、agent、云端IDE、工作流集成一整套端上来了。之前各家都是"我们发了个新模型",然后你得自己去搭agent、搞部署、配CI/CD。
Mistral直接给你一个:模型 + CLI agent + 云端跑 + GitHub/Jira集成的全家桶。而且开源的(至少模型是)。
我猜接下来几个月会有更多类似的"模型+agent+云"端到端方案出现。今年底再看,local CLI coding agent可能就要被云端异步agent取代了。
如果觉得有帮助,欢迎点赞收藏 ❤️ 更多AI工具实战教程,关注我第一时间获取~