MiniMax 市值超百度,M2.7 到底什么水平?我用 3 种方式调了一遍 API

0 阅读4分钟

这两天刷新闻看到 MiniMax 市值超百度了,两天暴涨 51%,3826 亿港币。说实话第一反应是——这也太魔幻了,一个年营收不到 6 亿的公司,市值比千亿营收的百度还高?

不过作为开发者,市值什么的跟我关系不大,我更关心的是:M2.7 这个新模型到底好不好用?正好 MiniMax 在送 $30 的 API 额度(4 月 3 号过期),索性拿来测一把。

先说结论

维度M2.7 表现同级对比
文本生成91.7 分,第一超过 GPT-5.4(90.2)和 Opus 4.6(88.5)
编程能力Multi-SWE Bench 全球第一SWE Bench Pro 仅落后 Opus/GPT 约 1%
Agent 任务PinchBench 全球第四比 M2.5 平均分从 8.07→9.60
数学/逻辑拉胯,高难度掉 18+ 分明显弱于 Opus 4.6
价格同 M2.5,同级 1/10~1/20性价比极高

一句话总结:文本和编程真的强,数学推理是短板,适合做内容生成和 Agent 场景,不适合搞竞赛题。

领 $30 免费额度

MiniMax 官方在做推广,新用户注册就送 $30 API 额度,有效期到 2026-04-03。步骤很简单:

  1. platform.minimaxi.com 注册
  2. 进控制台,API Key 已经自动创建好了
  3. 余额里能看到 $30 的赠金

拿到 Key 之后就可以开搞了。

方式一:兼容 OpenAI 协议直接调

M2.7 最香的地方是完全兼容 OpenAI 的 SDK,改个 base_url 就行,迁移成本约等于零。

from openai import OpenAI

client = OpenAI(
    api_key="你的MiniMax API Key",
    base_url="https://api.minimaxi.com/v1"
)

response = client.chat.completions.create(
    model="MiniMax-M2.7",
    messages=[
        {"role": "system", "content": "你是一个资深 Python 开发者"},
        {"role": "user", "content": "写一个带重试和超时的 HTTP 请求封装,要求支持指数退避"}
    ],
    temperature=0.7,
    max_tokens=2000
)

print(response.choices[0].message.content)

跑了一下,编程任务的输出质量确实不错,代码结构清晰、注释到位,还主动加了 typinglogging。速度也很快,M2.7-highspeed 版本体感跟 Sonnet 差不多。

方式二:用聚合平台一个 Key 测多个模型

测模型最烦的就是每家注册一遍、换一堆 Key。我后来发现用 ofox.ai 这种聚合接口更省事,一个 API Key 能调 MiniMax、GPT、Claude 等 50 多个模型,对比测试的时候只需要换 model 参数就行:

from openai import OpenAI

# 一个 base_url 搞定所有模型
client = OpenAI(
    api_key="你的聚合平台Key",
    base_url="https://api.ofox.ai/v1"
)

# 同一个 prompt,换模型对比
models = ["MiniMax-M2.7", "gpt-5.3-chat", "claude-sonnet-4.6"]

prompt = "用 Python 实现一个简单的 LRU Cache,要求线程安全"

for model in models:
    resp = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": prompt}],
        temperature=0.3
    )
    print(f"\n{'='*50}")
    print(f"模型: {model}")
    print(f"{'='*50}")
    print(resp.choices[0].message.content[:500])

这样对比下来就很直观了——M2.7 在写代码这块真的不虚 GPT-5.3,甚至在注释和代码结构上更规范。

方式三:Agent 场景实测(OpenClaw 加持)

MiniMax 之所以股价暴涨,很大一部分原因是 OpenClaw。M2.7 在 OpenClaw 生态里表现很猛,官方还专门出了 MaxClaw。

我简单测了下 M2.7 做 Agent 的表现,用 Function Calling:

import json
from openai import OpenAI

client = OpenAI(
    api_key="你的Key",
    base_url="https://api.minimaxi.com/v1"
)

tools = [
    {
        "type": "function",
        "function": {
            "name": "search_code",
            "description": "在代码仓库中搜索指定模式的代码",
            "parameters": {
                "type": "object",
                "properties": {
                    "pattern": {"type": "string", "description": "搜索模式,支持正则"},
                    "file_type": {"type": "string", "description": "文件类型过滤"}
                },
                "required": ["pattern"]
            }
        }
    },
    {
        "type": "function",
        "function": {
            "name": "run_test",
            "description": "运行指定的测试文件",
            "parameters": {
                "type": "object",
                "properties": {
                    "test_file": {"type": "string", "description": "测试文件路径"},
                    "verbose": {"type": "boolean", "description": "是否输出详细日志"}
                },
                "required": ["test_file"]
            }
        }
    }
]

response = client.chat.completions.create(
    model="MiniMax-M2.7",
    messages=[
        {"role": "user", "content": "帮我找到所有使用了 deprecated API 的 Python 文件,然后跑一下对应的测试"}
    ],
    tools=tools,
    tool_choice="auto"
)

# M2.7 的 tool calling 能力
for choice in response.choices:
    msg = choice.message
    if msg.tool_calls:
        for tc in msg.tool_calls:
            print(f"调用: {tc.function.name}")
            print(f"参数: {tc.function.arguments}")

实测 M2.7 的 Function Calling 准确率挺高,参数解析基本没翻车过。最让我惊喜的是它能自动拆分多步骤任务——一个 prompt 里说「找文件+跑测试」,它会正确地先调 search_code 再调 run_test,顺序逻辑没问题。

踩坑记录

坑 1:highspeed 版本有坑

M2.7 有普通版和 highspeed 版,官方说结果一致,但我在长文本生成(>3000 字)的场景下发现 highspeed 偶尔会截断。建议长文本生成还是用普通版。

坑 2:temperature 敏感

M2.7 对 temperature 比较敏感,同样是 0.7:

  • GPT 系列输出稳定
  • M2.7 波动明显

建议编程类任务 temperature 设 0.1~0.3,创意类再往上调。

坑 3:数学题别用它

这个得实话实说。让它做高中数学综合题,10 道错了 4 道。同样的题 GPT-5.3 只错 1 道。如果你的场景涉及数值计算或逻辑推理,M2.7 不是最优选。

小结

MiniMax 市值超百度这件事,从市场角度看可能有泡沫,但从产品角度看,M2.7 确实是一个值得认真对待的模型。文本生成和编程是真的强,价格还便宜——同级别模型 1/10 到 1/20 的价格,搞 Agent 和内容生成场景简直是白嫖。

但数学推理是硬伤,高难度任务稳定性也有待提升。不过对于大多数开发者日常使用来说,这些短板影响不大。

趁着 $30 免费额度还在,建议去试试。API 兼容 OpenAI 协议,改个 base_url 就能跑,五分钟上手。


以上数据基于 XSCT Arena、SWE Bench Pro、PinchBench 等公开评测,代码示例均实测可跑。如果你也在用 M2.7,欢迎评论区交流踩坑经验。