热榜说Minimax对标Opus 4.6，我花了2小时跑了个benchmark，结果有点意外今天刷掘金，热榜 #15 就

今天刷掘金，热榜 #15 就是「Minimax 直接对标 Opus 4.6 了，实力还是吹牛逼？」

说实话看到这标题我笑了。对标 Opus 4.6？？？Claude 家的旗舰模型，你一个国产选手说对标就对标？

但转念一想——去年 DeepSeek V3 出来的时候，大家不也觉得是吹的嘛，结果确实打了不少人的脸。

所以这次我决定不做键盘侠，花 2 小时跑个简单的 benchmark，看看 Minimax 到底几斤几两 🧪

测试方案

不整那些花里胡哨的学术 benchmark，我就测三个实际开发中最常遇到的场景：

代码生成：给一段需求，让它写完整的实现
逻辑推理：经典的多跳推理问题
长文本理解：扔一段 3000 字的技术文档，问细节

测试模型：

Claude Opus 4.6（目前公认最强）
Minimax-Text-01（据说对标选手）
GPT-4o（拿来当 baseline）
DeepSeek V4（国产标杆）

怎么快速测？

说到这，得先吐槽一下——要同时测 4 个不同厂商的大模型API，光配环境就能把人逼疯：

OpenAI 要一个 key
Anthropic 要另一个 key，而且请求格式还不一样
DeepSeek 又是一个 key
Minimax 又一套……

我之前的做法是写 4 套不同的调用代码，每次切模型都要改 base_url 和 headers。代码丑得我自己都不想看 😂

后来发现了个省事的方案——用 API 聚合平台，一个 key 搞定所有模型。我用的是 ofox.ai，国内直连不用翻墙，而且所有模型都走 OpenAI 格式，代码只用写一套：

import openai

client = openai.OpenAI(
    api_key="your-ofox-key",
    base_url="https://api.ofox.ai/v1"
)

def test_model(model_name, prompt):
    """一套代码测所有模型"""
    start = time.time()
    resp = client.chat.completions.create(
        model=model_name,
        messages=[{"role": "user", "content": prompt}],
        temperature=0.3
    )
    elapsed = time.time() - start
    return {
        "model": model_name,
        "response": resp.choices[0].message.content,
        "latency": f"{elapsed:.1f}s",
        "tokens": resp.usage.total_tokens
    }

# 切模型就改这一行，爽
models = [
    "claude-opus-4-6",
    "minimax-text-01",
    "gpt-4o",
    "deepseek-chat"
]

这样跑 benchmark 的效率直接拉满，不用管各家 API 的格式差异。

测试一：代码生成

Prompt：

用 Python 实现一个 LRU Cache，支持 get/put 操作，O(1) 时间复杂度，带过期时间功能。

这个需求说简单也不简单，核心是 OrderedDict + 过期时间逻辑。

结果

模型	代码质量	是否可运行	有无 bug	延迟
Opus 4.6	⭐⭐⭐⭐⭐	✅	无	4.2s
Minimax	⭐⭐⭐⭐	✅	过期清理有小问题	3.8s
GPT-4o	⭐⭐⭐⭐	✅	无	2.1s
DeepSeek V4	⭐⭐⭐⭐⭐	✅	无	1.9s

意外发现： DeepSeek V4 的代码质量居然不输 Opus 4.6，而且速度最快。Minimax 的实现思路是对的，但过期时间的边界处理有个小 bug（并发场景下可能多删一个 key）。

测试二：逻辑推理

Prompt：

Alice, Bob, Charlie 三人。Alice 说：Bob 在说谎。Bob 说：Charlie 在说谎。Charlie 说：Alice 和 Bob 都在说谎。假设至少一个人说真话，谁在说真话？

结果

模型	答案正确	推理过程	延迟
Opus 4.6	✅	完整清晰	5.7s
Minimax	✅	完整但略啰嗦	4.1s
GPT-4o	✅	清晰	2.8s
DeepSeek V4	✅	清晰	2.3s

这题大家都答对了，区别在于推理过程。Opus 4.6 的推理过程最像人类思维，一步步排除；Minimax 啰嗦了一点但也到位。

测试三：长文本理解

扔了一段 3000 字的 Kubernetes 部署文档，问了三个藏在文档中间的细节问题。

结果

模型	3题全对	准确率	延迟
Opus 4.6	✅	3/3	6.8s
Minimax	❌	2/3	5.2s
GPT-4o	✅	3/3	3.5s
DeepSeek V4	✅	3/3	2.8s

Minimax 漏了一个关于 PVC 配置的细节。说实话，这个细节确实比较隐蔽，藏在一段注释里。但 Opus 4.6 和 GPT-4o 都找到了。

价格对比（这才是大家最关心的吧）

跑完 benchmark，我顺便算了一下各家大模型API的价格对比：

模型	输入价格 ($/1M tokens)	输出价格 ($/1M tokens)	综合评价
Opus 4.6	$15	$75	最强但最贵
GPT-4o	$2.5	$10	性价比不错
DeepSeek V4	$0.27	$1.1	便宜到离谱
Minimax	$1.0	$5.5	中等偏贵

灵魂拷问： Minimax 价格比 DeepSeek 贵 4 倍，但表现并没有好 4 倍。如果你追求极致性能，直接上 Opus 4.6；如果追求性价比，DeepSeek V4 几乎是无脑选。

Minimax 目前有点卡在中间——比不过 Opus 4.6 的全面性，又没有 DeepSeek 的价格优势 🤔

我的结论

「对标 Opus 4.6」这话说早了，但 Minimax 确实在进步。

按我这次测试的体感：

🏆 综合最强：Claude Opus 4.6，没悬念
💰 性价比之王：DeepSeek V4，便宜又能打
📈 进步最快：Minimax，虽然还有差距，但比上一代强不少
⚖️ 均衡选手：GPT-4o，各方面都不拉跨

说实话，现在国产模型的进步速度确实很猛。对我们开发者来说最好的策略就是——别绑死一个模型。不同场景用不同模型，写代码用 Opus，跑量用 DeepSeek，这才是最优解。

所以我现在基本不直接调各家官方API了，用聚合平台一个入口切换模型，省心很多。感兴趣的可以看看 ofox.ai，国内直连，50+ 模型随便切，OpenAI 格式兼容。

最后说一句：模型竞争越激烈，对我们开发者越有利。卷起来吧各位大模型厂商 🎉

如果你也在纠结选哪个大模型API，欢迎评论区交流踩坑经验~