今天刷掘金,热榜 #15 就是「Minimax 直接对标 Opus 4.6 了,实力还是吹牛逼?」
说实话看到这标题我笑了。对标 Opus 4.6???Claude 家的旗舰模型,你一个国产选手说对标就对标?
但转念一想——去年 DeepSeek V3 出来的时候,大家不也觉得是吹的嘛,结果确实打了不少人的脸。
所以这次我决定不做键盘侠,花 2 小时跑个简单的 benchmark,看看 Minimax 到底几斤几两 🧪
测试方案
不整那些花里胡哨的学术 benchmark,我就测三个实际开发中最常遇到的场景:
- 代码生成:给一段需求,让它写完整的实现
- 逻辑推理:经典的多跳推理问题
- 长文本理解:扔一段 3000 字的技术文档,问细节
测试模型:
- Claude Opus 4.6(目前公认最强)
- Minimax-Text-01(据说对标选手)
- GPT-4o(拿来当 baseline)
- DeepSeek V4(国产标杆)
怎么快速测?
说到这,得先吐槽一下——要同时测 4 个不同厂商的大模型API,光配环境就能把人逼疯:
- OpenAI 要一个 key
- Anthropic 要另一个 key,而且请求格式还不一样
- DeepSeek 又是一个 key
- Minimax 又一套……
我之前的做法是写 4 套不同的调用代码,每次切模型都要改 base_url 和 headers。代码丑得我自己都不想看 😂
后来发现了个省事的方案——用 API 聚合平台,一个 key 搞定所有模型。我用的是 ofox.ai,国内直连不用翻墙,而且所有模型都走 OpenAI 格式,代码只用写一套:
import openai
client = openai.OpenAI(
api_key="your-ofox-key",
base_url="https://api.ofox.ai/v1"
)
def test_model(model_name, prompt):
"""一套代码测所有模型"""
start = time.time()
resp = client.chat.completions.create(
model=model_name,
messages=[{"role": "user", "content": prompt}],
temperature=0.3
)
elapsed = time.time() - start
return {
"model": model_name,
"response": resp.choices[0].message.content,
"latency": f"{elapsed:.1f}s",
"tokens": resp.usage.total_tokens
}
# 切模型就改这一行,爽
models = [
"claude-opus-4-6",
"minimax-text-01",
"gpt-4o",
"deepseek-chat"
]
这样跑 benchmark 的效率直接拉满,不用管各家 API 的格式差异。
测试一:代码生成
Prompt:
用 Python 实现一个 LRU Cache,支持 get/put 操作,O(1) 时间复杂度,带过期时间功能。
这个需求说简单也不简单,核心是 OrderedDict + 过期时间逻辑。
结果
| 模型 | 代码质量 | 是否可运行 | 有无 bug | 延迟 |
|---|---|---|---|---|
| Opus 4.6 | ⭐⭐⭐⭐⭐ | ✅ | 无 | 4.2s |
| Minimax | ⭐⭐⭐⭐ | ✅ | 过期清理有小问题 | 3.8s |
| GPT-4o | ⭐⭐⭐⭐ | ✅ | 无 | 2.1s |
| DeepSeek V4 | ⭐⭐⭐⭐⭐ | ✅ | 无 | 1.9s |
意外发现: DeepSeek V4 的代码质量居然不输 Opus 4.6,而且速度最快。Minimax 的实现思路是对的,但过期时间的边界处理有个小 bug(并发场景下可能多删一个 key)。
测试二:逻辑推理
Prompt:
Alice, Bob, Charlie 三人。Alice 说:Bob 在说谎。Bob 说:Charlie 在说谎。Charlie 说:Alice 和 Bob 都在说谎。假设至少一个人说真话,谁在说真话?
结果
| 模型 | 答案正确 | 推理过程 | 延迟 |
|---|---|---|---|
| Opus 4.6 | ✅ | 完整清晰 | 5.7s |
| Minimax | ✅ | 完整但略啰嗦 | 4.1s |
| GPT-4o | ✅ | 清晰 | 2.8s |
| DeepSeek V4 | ✅ | 清晰 | 2.3s |
这题大家都答对了,区别在于推理过程。Opus 4.6 的推理过程最像人类思维,一步步排除;Minimax 啰嗦了一点但也到位。
测试三:长文本理解
扔了一段 3000 字的 Kubernetes 部署文档,问了三个藏在文档中间的细节问题。
结果
| 模型 | 3题全对 | 准确率 | 延迟 |
|---|---|---|---|
| Opus 4.6 | ✅ | 3/3 | 6.8s |
| Minimax | ❌ | 2/3 | 5.2s |
| GPT-4o | ✅ | 3/3 | 3.5s |
| DeepSeek V4 | ✅ | 3/3 | 2.8s |
Minimax 漏了一个关于 PVC 配置的细节。说实话,这个细节确实比较隐蔽,藏在一段注释里。但 Opus 4.6 和 GPT-4o 都找到了。
价格对比(这才是大家最关心的吧)
跑完 benchmark,我顺便算了一下各家大模型API的价格对比:
| 模型 | 输入价格 ($/1M tokens) | 输出价格 ($/1M tokens) | 综合评价 |
|---|---|---|---|
| Opus 4.6 | $15 | $75 | 最强但最贵 |
| GPT-4o | $2.5 | $10 | 性价比不错 |
| DeepSeek V4 | $0.27 | $1.1 | 便宜到离谱 |
| Minimax | $1.0 | $5.5 | 中等偏贵 |
灵魂拷问: Minimax 价格比 DeepSeek 贵 4 倍,但表现并没有好 4 倍。如果你追求极致性能,直接上 Opus 4.6;如果追求性价比,DeepSeek V4 几乎是无脑选。
Minimax 目前有点卡在中间——比不过 Opus 4.6 的全面性,又没有 DeepSeek 的价格优势 🤔
我的结论
「对标 Opus 4.6」这话说早了,但 Minimax 确实在进步。
按我这次测试的体感:
- 🏆 综合最强:Claude Opus 4.6,没悬念
- 💰 性价比之王:DeepSeek V4,便宜又能打
- 📈 进步最快:Minimax,虽然还有差距,但比上一代强不少
- ⚖️ 均衡选手:GPT-4o,各方面都不拉跨
说实话,现在国产模型的进步速度确实很猛。对我们开发者来说最好的策略就是——别绑死一个模型。不同场景用不同模型,写代码用 Opus,跑量用 DeepSeek,这才是最优解。
所以我现在基本不直接调各家官方API了,用聚合平台一个入口切换模型,省心很多。感兴趣的可以看看 ofox.ai,国内直连,50+ 模型随便切,OpenAI 格式兼容。
最后说一句:模型竞争越激烈,对我们开发者越有利。卷起来吧各位大模型厂商 🎉
如果你也在纠结选哪个大模型API,欢迎评论区交流踩坑经验~