🥇 Qwen3.6-35B-A3B (本地) 69/72 · 1024ms ⭐
🥈 Qwen3-32B (本地) 66/72 · 2397ms
🥉 glm-5-turbo (云端) 40/72 · 8698ms
DeepSeek V3.2 39/72 · 7350ms
Step-3.5-Flash 38/72 · 5337ms
Kimi K2.5 36/72 · 7255ms
MiniMax M2.7 34/72 · 7803ms
本地 4090 MoE 模型居然在工具调用维度把 5 家云端付费 API 按在地上摩擦。
关键是——我为了这个结果浪费了一周
(parser 配错导致测出来 0/72,差点以为模型废了)。
完整复盘 + vLLM 正确配置 + 24 题脚本全开源:
![[流泪]](http://lf-web-assets.juejin.cn/obj/juejin-web/xitu_juejin_web/img/jj_emoji_6.dde0d83.png)