热榜说Minimax对标Opus 4.6,我花了2小时跑了个benchmark,结果有点意外

7 阅读4分钟

今天刷掘金,热榜 #15 就是「Minimax 直接对标 Opus 4.6 了,实力还是吹牛逼?」

说实话看到这标题我笑了。对标 Opus 4.6???Claude 家的旗舰模型,你一个国产选手说对标就对标?

但转念一想——去年 DeepSeek V3 出来的时候,大家不也觉得是吹的嘛,结果确实打了不少人的脸。

所以这次我决定不做键盘侠,花 2 小时跑个简单的 benchmark,看看 Minimax 到底几斤几两 🧪

测试方案

不整那些花里胡哨的学术 benchmark,我就测三个实际开发中最常遇到的场景

  1. 代码生成:给一段需求,让它写完整的实现
  2. 逻辑推理:经典的多跳推理问题
  3. 长文本理解:扔一段 3000 字的技术文档,问细节

测试模型:

  • Claude Opus 4.6(目前公认最强)
  • Minimax-Text-01(据说对标选手)
  • GPT-4o(拿来当 baseline)
  • DeepSeek V4(国产标杆)

怎么快速测?

说到这,得先吐槽一下——要同时测 4 个不同厂商的大模型API,光配环境就能把人逼疯:

  • OpenAI 要一个 key
  • Anthropic 要另一个 key,而且请求格式还不一样
  • DeepSeek 又是一个 key
  • Minimax 又一套……

我之前的做法是写 4 套不同的调用代码,每次切模型都要改 base_url 和 headers。代码丑得我自己都不想看 😂

后来发现了个省事的方案——用 API 聚合平台,一个 key 搞定所有模型。我用的是 ofox.ai,国内直连不用翻墙,而且所有模型都走 OpenAI 格式,代码只用写一套:

import openai

client = openai.OpenAI(
    api_key="your-ofox-key",
    base_url="https://api.ofox.ai/v1"
)

def test_model(model_name, prompt):
    """一套代码测所有模型"""
    start = time.time()
    resp = client.chat.completions.create(
        model=model_name,
        messages=[{"role": "user", "content": prompt}],
        temperature=0.3
    )
    elapsed = time.time() - start
    return {
        "model": model_name,
        "response": resp.choices[0].message.content,
        "latency": f"{elapsed:.1f}s",
        "tokens": resp.usage.total_tokens
    }

# 切模型就改这一行,爽
models = [
    "claude-opus-4-6",
    "minimax-text-01",
    "gpt-4o",
    "deepseek-chat"
]

这样跑 benchmark 的效率直接拉满,不用管各家 API 的格式差异。

测试一:代码生成

Prompt:

用 Python 实现一个 LRU Cache,支持 get/put 操作,O(1) 时间复杂度,带过期时间功能。

这个需求说简单也不简单,核心是 OrderedDict + 过期时间逻辑。

结果

模型代码质量是否可运行有无 bug延迟
Opus 4.6⭐⭐⭐⭐⭐4.2s
Minimax⭐⭐⭐⭐过期清理有小问题3.8s
GPT-4o⭐⭐⭐⭐2.1s
DeepSeek V4⭐⭐⭐⭐⭐1.9s

意外发现: DeepSeek V4 的代码质量居然不输 Opus 4.6,而且速度最快。Minimax 的实现思路是对的,但过期时间的边界处理有个小 bug(并发场景下可能多删一个 key)。

测试二:逻辑推理

Prompt:

Alice, Bob, Charlie 三人。Alice 说:Bob 在说谎。Bob 说:Charlie 在说谎。Charlie 说:Alice 和 Bob 都在说谎。假设至少一个人说真话,谁在说真话?

结果

模型答案正确推理过程延迟
Opus 4.6完整清晰5.7s
Minimax完整但略啰嗦4.1s
GPT-4o清晰2.8s
DeepSeek V4清晰2.3s

这题大家都答对了,区别在于推理过程。Opus 4.6 的推理过程最像人类思维,一步步排除;Minimax 啰嗦了一点但也到位。

测试三:长文本理解

扔了一段 3000 字的 Kubernetes 部署文档,问了三个藏在文档中间的细节问题。

结果

模型3题全对准确率延迟
Opus 4.63/36.8s
Minimax2/35.2s
GPT-4o3/33.5s
DeepSeek V43/32.8s

Minimax 漏了一个关于 PVC 配置的细节。说实话,这个细节确实比较隐蔽,藏在一段注释里。但 Opus 4.6 和 GPT-4o 都找到了。

价格对比(这才是大家最关心的吧)

跑完 benchmark,我顺便算了一下各家大模型API的价格对比:

模型输入价格 ($/1M tokens)输出价格 ($/1M tokens)综合评价
Opus 4.6$15$75最强但最贵
GPT-4o$2.5$10性价比不错
DeepSeek V4$0.27$1.1便宜到离谱
Minimax$1.0$5.5中等偏贵

灵魂拷问: Minimax 价格比 DeepSeek 贵 4 倍,但表现并没有好 4 倍。如果你追求极致性能,直接上 Opus 4.6;如果追求性价比,DeepSeek V4 几乎是无脑选。

Minimax 目前有点卡在中间——比不过 Opus 4.6 的全面性,又没有 DeepSeek 的价格优势 🤔

我的结论

「对标 Opus 4.6」这话说早了,但 Minimax 确实在进步。

按我这次测试的体感:

  • 🏆 综合最强:Claude Opus 4.6,没悬念
  • 💰 性价比之王:DeepSeek V4,便宜又能打
  • 📈 进步最快:Minimax,虽然还有差距,但比上一代强不少
  • ⚖️ 均衡选手:GPT-4o,各方面都不拉跨

说实话,现在国产模型的进步速度确实很猛。对我们开发者来说最好的策略就是——别绑死一个模型。不同场景用不同模型,写代码用 Opus,跑量用 DeepSeek,这才是最优解。

所以我现在基本不直接调各家官方API了,用聚合平台一个入口切换模型,省心很多。感兴趣的可以看看 ofox.ai,国内直连,50+ 模型随便切,OpenAI 格式兼容。


最后说一句:模型竞争越激烈,对我们开发者越有利。卷起来吧各位大模型厂商 🎉

如果你也在纠结选哪个大模型API,欢迎评论区交流踩坑经验~