别再迷信LLM综合榜单了 - 立子 - 沸点 - 掘金

一起进步

别再迷信LLM综合榜单了

评测LLM的指标，按类型可分为四大类：
知识QA、深度推理、Agentic（偏文科）、Coding（偏理科的Agentic）

为什么高分模型不一定适合你？
目前流行的统一评分规则（如Artificial Analysis），是将各子指标加权求和得出总分。但问题在于——每个人的日常工作差异巨大：
行政事务、汇报材料 → 知识QA + 报告撰写
编程开发、代码Debug → Coding
行业研究、策略分析 → 深度推理 + 科学知识
目前没有任何一个模型在所有维度上都碾压：
- Gemini / KIMI → 知识储备厚、逻辑推理强
- Claude / GLM → 编程能力突出
- ChatGPT / MiniMax → 综合实力均衡，但无明显长板
结果是：综合分数高的模型，其亮点未必与你的日常工作匹配。少数人用得爽，大部分人却总觉得"有比第一名更舒服的选择"。

选模型要看针对性指标：
SWEBench → 编程开发、代码Debug
TerminalBench → 运维管理、系统操作
GDPVal → 报告撰写、行政文职
HLE / CrtiPt / GPQA → 行业研究、策略分析

与其追着综合榜跑，不如先明确自己的工作流类型，再选择对应评测维度。

展开