获得徽章 8
别再迷信LLM综合榜单了

评测LLM的指标,按类型可分为四大类:
知识QA、深度推理、Agentic(偏文科)、Coding(偏理科的Agentic)

为什么高分模型不一定适合你?
目前流行的统一评分规则(如Artificial Analysis),是将各子指标加权求和得出总分。但问题在于——每个人的日常工作差异巨大:
行政事务、汇报材料 → 知识QA + 报告撰写
编程开发、代码Debug → Coding
行业研究、策略分析 → 深度推理 + 科学知识
目前没有任何一个模型在所有维度上都碾压:
- Gemini / KIMI → 知识储备厚、逻辑推理强
- Claude / GLM → 编程能力突出
- ChatGPT / MiniMax → 综合实力均衡,但无明显长板
结果是:综合分数高的模型,其亮点未必与你的日常工作匹配。少数人用得爽,大部分人却总觉得"有比第一名更舒服的选择"。

选模型要看针对性指标:
SWEBench → 编程开发、代码Debug
TerminalBench → 运维管理、系统操作
GDPVal → 报告撰写、行政文职
HLE / CrtiPt / GPQA → 行业研究、策略分析

与其追着综合榜跑,不如先明确自己的工作流类型,再选择对应评测维度。
展开
评论
国产模型在吹牛吗?谈谈霸榜的模型不好用
评测 LLM 有一系列指标,可分类为:
知识QA、深度推理、Agentic(偏文科)、Coding(偏理科的 Agentic)

流行的统一指标的计算规则(如Artificial Analysis),是把各子指标加权计算得到一个总分。但是每个人日常工作流不一样:
行政工作 -> 知识 QA、生成报告
程序员 -> 编码 Coding
Researcher -> 深度推理、科学知识

由于每个人的工作流程不一样,且现在没有一个模型在所有方面都突出,比如:
Gemini/KIMI -> 知识量大、逻辑推理答题强
Claude/GLM -> 擅长编码
OpenAI/MiniMax -> 各方面优秀,但不够突出

以上就导致,一个模型加权分数高,但他的亮点并不和所有人的日常工作匹配。分高的模型,一小部分人用得爽,但大部分人总能找到比最高分更舒适的模型。

所以,对每个人来说。模型的评分要针对性看,选择和自己工作流匹配的评测集很重要:
SWEBench -> 程序员
TerminalBench -> SRE
GDPVal -> 写报告、文职工作
HLE/CrtiPt/GPQA -> Science Researcher
......
展开
立子于2026-04-15 18:52发布的图片
评论
SPEC 不靠谱,SDD 不就全崩了?

搞 SDD 的都知道,SPEC 就是核心。分析需求、拆任务、写代码、测试,都围着它转。

但我最近踩了个坑——SPEC 本身就写错了,后面全白干。

两个最头疼的情况:

1. Agent 根本不知道系统里已有的业务流程,SPEC 让它改哪它改哪,改完线上功能直接炸了。

2. Agent 不看你项目里代码怎么写的,它就按自己的"习惯"来,生成出来的东西风格完全对不上。

说白了 Agent 只会执行,不会质疑。你给它一份有问题的 SPEC,它能一本正经地把系统搞烂。

后来我搞了个 Owner-Review Skill,思路很简单:
让 Agent 动手之前,先像一个 Owner 一样审 SPEC——
这次改动影响了哪些功能?
每个功能现在是怎么实现的?
SPEC 的方案跟现有逻辑冲不冲突?风格对不对?

不靠 Agents.md、Rules,让它自己读代码,自己建立上下文。

所以核心是:别让 Agent 盲信 SPEC,要批判性的 Review SPEC。

github.com
展开
立子于2026-04-10 15:24发布的图片
立子于2026-04-10 15:24发布的图片
评论
搞了个 skill,让 Agent 变成你的 repo owner。

痛点:现在的 AI Agent 改代码像临时工 —— 只管指定的一亩三分地,改完就走,其他崩了不考虑。

方案:给 Agent 装上"主人翁意识"。写代码前,它会像一个熟悉每条流程、每个依赖的老员工一样审查你的方案 —— 谁在调这个模块?改了后,其他地方会不会炸?spec 里少考虑了什么?

让 Agent 都替你想到,在动手之前拦住问题。

github.com
展开
评论
今天看到个消息,说 Anthropic 发了一篇博客讲他们新模型 Claude Mythos。

这个模型很强,特别是找漏洞的能力。内部测出了好多 Linux 、浏览器引擎的漏洞。如果流出去被人利用,影响很大。

所以 Mythos 先不向公众开放,只给 Google、Linux 基金会这些机构用来提前修复。逻辑上感觉是说得通的。

但我想到一个切身的问题。

假如这玩意儿是真强。大模型发展很快,各家都在追。等超强的模型都开放给大众的时候,漏洞被利用的风险会大幅增加。而 Anthropic 对中国的态度不太友好,这类模型大概率不会给中国企业提前用。

说实话,这个差距感觉还挺让人担心的,虽然可能有点杞人忧天。国产模型能不能补上这个缺口,不好说。

你们觉得呢?
展开
立子于2026-04-08 14:27发布的图片
1
白天 Opus,晚上 MiniMax:我是怎么接受现实的

上班用 Opus,写代码基本一遍过,我以为 AI Coding 已经成熟了。

直到做自己项目,省点预算,试了 MiniMax 。用了几周,总结三句话:
1. 简单任务也出错——让 MiniMax 备份一个配置文件,它直接把原文件清了,差点没找回
2. 中等项目反复死 ——用它搭一个新模块,加载了 Skill,反反复复的漏掉 Skill 指令
3. 幻觉防不住——要求它搜索最新信息,它还是编了一个不存在的技术报告。

我不是来踩国产模型。我真正想说的是:打榜排名和实际 Coding 体验是两码事。

如果你也在这几个模型之间选,给你一个可操作的建议:把简单任务(重命名、单文件修改)交给国产模型省成本,复杂项目(多文件架构设计、跨 Skill 任务)别省,用 Opus。

一次跑通和跑十几次返工,时间成本算下来前者反而更便宜。
展开
5
KAT-Coder-Pro:我见过最「省」的第一梯队模型

快手上月底发布的 KAT-Coder-Pro V2,在 AA 评测的智能得分上已经紧跟第一梯队(44分 > Deepseek V3.2),但跑完全部评测只消耗了 **8.7M Tokens**——比 DeepSeek V3.2 少约 85%,比 Minimax V2.7 少约 90%。

这是什么概念?

做 Harness 工程的人都知道,Tokens 用得越少,Context 越干净,幻觉越少,成本也越低。KAT 抛开 Reasoning 模型不谈,在纯智能上已经和 Claude Sonnet 4.6 / Opus 4.6(非 Reasoning 版)处于同一梯队。

当然有劣势:长 Context 推理(~10w Tokens 单次推理)和专家级知识略微落后于顶尖玩家。但综合表现放在这里,瑕不掩瑜。
适合谁:用不起 Opus/Sonnet 但又需要第一梯队代码能力的团队;不适合:需要处理超长上下文或深度专业知识的场景。

你们有没有跑过 KAT?效果怎么样?
展开
立子于2026-04-05 17:03发布的图片
立子于2026-04-05 17:03发布的图片
评论
X 上据说未发布的 CC 特性,一键自动建立 Agent teams。视频里设置 Topic 后 CC 自动分配多个研究角色并执行,非常简便。
通过 SubAgents 提升整体上下文,并保持不同领域精准度,还易用。
在代码领域之外,CC 将可以成为Deep Research 等各类单一职能 Agent 的有力替代。
展开
立子于2026-04-02 09:26发布的图片
立子于2026-04-02 09:26发布的图片
评论
下一页
个人成就
文章被点赞 135
文章被阅读 39,557
掘力值 1,157
收藏集
1
关注标签
1
加入于