能力
| 排名 | 模型名称 | 综合得分 | 核心优势 | 短板 | |
|---|---|---|---|---|---|
| 1 | Claude-Opus-4.8 | 61.4/100 | 全球综合第一,代码质量最高,幻觉最少,复杂推理最强 | 价格极贵,速度较慢 | |
| 2 | GPT-5.5 | 62.9/100 | 终端操作能力断层领先,DevOps 自动化最强 | 价格极贵,中文能力一般 | |
| 3 | Claude-Opus-4.7 | 60.5/100 | SWE-bench Verified 87.6%,工程代码修复能力最强 | 价格极贵 | |
| 4 | GPT-5.4 | 58.2/100 | 原生计算机操控,多步任务执行稳定 | 价格较贵 | |
| 5 | Claude-Opus-4.6 | 57.8/100 | 深度推理能力强,文档理解精准 | 价格极贵 | |
| 6 | Gemini-3.5-Flash | 56.7/100 | 多模态能力全球第一,Agent 工具调用最强,速度最快 | 纯文本推理略弱 | |
| 7 | DeepSeek-V4-Pro | 52/100 | 代码能力全球第一(LiveCodeBench 93.5%),数学推理极强,1M 上下文 | 多模态能力缺失,英文写作一般 | |
| 8 | Kimi-K2.6 | 54/100 | Agent 集群能力最强(300 个子 Agent 并行),长文本处理极佳 | 代码能力略逊于 DeepSeek | |
| 9 | GLM-5.1 | 51/100 | 数学推理全球第二(AIME 95.3%),中文能力强,开源可部署 | 上下文仅 200K | |
| 10 | MiniMax-M3 | 49.8/100 | 原生多模态 + 计算机操控,视觉代码生成最强 | 纯文本推理略弱 | |
| 11 | Claude-Sonnet-4.6 | 48.5/100 | 均衡型模型,性价比高,企业级稳定 | 能力无突出亮点 | |
| 12 | DeepSeek-V4-Flash | 47/100 | 轻量极速,能力接近 Claude Sonnet 4.5,价格极低 | 复杂推理能力有限 | |
| 13 | MiniMax-M2.7 | 46.2/100 | 长程任务自主执行能力强(12 小时无人干预) | 已被 M3 替代 | |
| 14 | GPT-5.3-Codex | 45.7/100 | 代码能力强,生态完善 | 已被 GPT-5.4 全面超越 | |
| 15 | Hy3 preview(混元 3) | 44.5/100 | 推理和代码能力均衡,企业实用型 | 预览版,稳定性一般 | |
| 16 | GLM-5v-Turbo | 43.8/100 | 多模态 + Agent 优化,工具调用稳定 | 纯文本推理略弱 | |
| 17 | Claude-Haiku-4.5 | 42.1/100 | 速度极快,适合简单分类和提取任务 | 复杂任务能力差 | |
| 18 | DeepSeek-V3.2 | 42/100 | 上一代旗舰,能力仍不错,价格便宜 | 已被 V4 全面超越 | |
| 19 | Echo(豆包 Echo) | 35/100 | 基础对话能力,中文体验好 | 专业能力有限 | |
| 20 | Auto | 自动 | 自动 | 智能选择最优模型 | 成本不可控 |
价格
| 排名 | 模型名称 | 输入价格 (/1M) | 输出价格 (/1M) | 综合成本 (/1M) | 备注 |
|---|---|---|---|---|---|
| 1 | GPT-5.5(企业版) | $5.00 | $30.00 | ~252 元 | 全球最贵,缓存命中输入仅 $0.50 |
| 2 | Claude-Opus-4.8(企业版) | $5.00 | $25.00 | ~216 元 | 与 Opus 4.7/4.6 同价 |
| 3 | Claude-Opus-4.7(企业版) | $5.00 | $25.00 | ~216 元 | |
| 4 | Claude-Opus-4.6(企业版) | $5.00 | $25.00 | ~216 元 | |
| 5 | Claude-Sonnet-4.6(企业版) | $3.00 | $15.00 | ~129.6 元 | |
| 6 | Gemini-3.5-Flash(企业版) | $1.50 | $9.00 | ~75.6 元 | 多模态能力极强 |
| 7 | GPT-5.3-Codex(企业版) | $2.00 | $8.00 | ~72 元 | 已被 GPT-5.4 替代 |
| 8 | GPT-5.4(企业版) | $0.75 | $4.50 | ~37.8 元 | 缓存命中输入仅 $0.075 |
| 9 | GLM-5v-Turbo | ¥8.64 | ¥28.8 | ~37.44 元 | 多模态 + Agent 优化 |
| 10 | GLM-5.1 | ¥6.00 | ¥24.0 | ~30 元 | 开源旗舰 |
| 11 | Kimi-K2.6 | ¥4.9 | ¥24.6 | ~29.5 元 | 缓存命中输入仅 ¥0.5 |
| 12 | Claude-Haiku-4.5(企业版) | $1.00 | $1.25 | ~16.2 元 | 轻量快速 |
| 13 | MiniMax-M3 | ¥3.0 | ¥9.0 | ~12 元 | 多模态 + 计算机操控 |
| 14 | DeepSeek-V4-Pro | ¥3.0 | ¥6.0 | ~9 元 | 性价比之王,缓存命中输入仅 ¥0.025 |
| 15 | MiniMax-M2.7 | ¥2.0 | ¥6.0 | ~8 元 | 长程任务优化 |
| 16 | DeepSeek-V3.2 | ¥2.0 | ¥3.0 | ~5 元 | 上一代旗舰 |
| 17 | Hy3 preview(混元 3) | ¥1.2 | ¥4.0 | ~5.2 元 | <16K 上下文,内部模型 |
| 18 | DeepSeek-V4-Flash | ¥1.0 | ¥2.0 | ~3 元 | 轻量极速,缓存命中输入仅 ¥0.02 |
| 19 | Echo(豆包 Echo) | 免费 | 免费 | 0 元 | 基础能力,日常对话 |
| 20 | Auto | 自动 | 自动 | 取决于调用模型 | 智能路由 |