Cursor Composer 2 vs Anthropic Harness:AI Coding Agent 多智能体架构深度解析
24小时内两大发布,AI编程进入多智能体时代
TL;DR
- Cursor Composer 2:基于Kimi K2.5微调,CursorBench 661.3分,价格比Claude便宜86%
- Anthropic Harness:三智能体架构(Planner+Generator+Evaluator),Claude连续6小时自主开发
- 核心洞察:模型与Harness协同进化,开源模型已进入硅谷核心供应链
背景
2025年3月25日,AI编程领域迎来历史性时刻:
| 时间 | 发布 | 核心内容 |
|---|---|---|
| 3月25日 | Cursor Composer 2 | 基于Kimi K2.5的编程模型 |
| 3月24日 | Anthropic Harness | 多智能体框架技术博客 |
两者代表了AI Coding Agent的两种技术路线,本文将深度对比。
Cursor Composer 2:模型即Agent
技术规格
CursorBench得分:661.3(> Claude Opus 4.6的582)
定价:$0.50/M input, $2.50/M output(Standard)
$1.50/M input, $7.50/M output(Fast)
成本优势:比Claude便宜86%
Kimi K2.5基座
Cursor VP Lee Robinson承认:
Composer 2约25%预训练来自Kimi K2.5基座,75%来自Cursor自己的RL训练。
技术细节:
- 通过Fireworks AI建立授权合作
- Moonshot AI官方确认合作关系
- 首次中国开源模型支撑硅谷明星产品核心
关键创新
MTP(Multi-Token Prediction)
# 同时预测多个token,提升推理速度
# 相比自回归生成,效率提升显著
自我总结机制
- 主动压缩历史上下文
- 避免长对话信息遗忘
- 保持关键决策因子
增强调试模式
- 主动定位bug
- 提出修复假设
- 执行验证并汇报
Anthropic Harness:Harness工程
核心问题诊断
Anthropic Labs成员Prithvi Rajasekaran坦诚指出:
1. 上下文焦虑(Context Anxiety)
现象:模型预感上下文将满,提前草草收尾
观察:在Claude Sonnet 4.5上非常明显
解决:上下文重置 + 结构化交接文件
2. 自我评估失真
现象:模型自信地批准自己的工作,哪怕实际很烂
原因:缺乏客观评估标准
解决:分离Generator和Evaluator(借鉴GAN)
三智能体架构
┌─────────────┐
│ Planner │ ← 将需求扩展为详细spec
└──────┬──────┘
│
▼
┌─────────────┐
│ Generator │ ← 按sprint实现功能
└──────┬──────┘
│
▼
┌─────────────┐
│ Evaluator │ ← Playwright测试,独立评估
└─────────────┘
Sprint合同机制:
- Generator提出方案
- Evaluator审核"完成定义"
- 达成一致后才动手
实验数据
| 方案 | 耗时 | 成本 | 结果 |
|---|---|---|---|
| 单Agent | 20min | $9 | 界面有,功能无法运行 |
| 三Agent | 6h | $200 | 完全可玩,含AI关卡生成 |
Opus 4.6优化
模型进化带来的Harness简化:
Before(Sonnet 4.5):
- Sprint结构必需
- 频繁上下文重置
- Evaluator每sprint运行
- 成本:$200/6h
After(Opus 4.6):
- Sprint结构移除
- 连续运行2h无需重置
- Evaluator仅最后运行
- 成本:$125/4h
核心洞察:
Harness的每个组件都编码了「这件事模型自己做不好」的假设,这些假设会随模型进化而过时。
深度对比
技术哲学
| 维度 | Cursor | Anthropic |
|---|---|---|
| 核心策略 | 模型即Agent | Harness工程 |
| 基座模型 | Kimi K2.5(开源) | Claude Opus(闭源) |
| 多智能体实现 | 模型内部 | 显式架构 |
| 成本 | 极低 | 中等 |
| 透明度 | 初期不足,后补授权 | 完全开源 |
代码示例对比
Cursor Composer 2使用:
// 模型自动处理多文件协作
const result = await composer.generate({
prompt: "Create a full-stack app with auth",
mode: "fast", // or "standard"
// 模型内部协调多个子任务
});
Anthropic Harness使用:
# 显式定义三智能体
planner = Agent(role="planner", model="claude-opus-4.6")
generator = Agent(role="generator", model="claude-opus-4.6")
evaluator = Agent(role="evaluator", model="claude-opus-4.6")
# 显式编排
spec = planner.expand("Create a full-stack app with auth")
for sprint in spec.sprints:
code = generator.implement(sprint)
feedback = evaluator.test(code)
if not feedback.approved:
code = generator.revise(code, feedback)
行业影响
开源模型崛起
Kimi K2.5数据:
- HuggingFace下载:356万+
- GitHub集成项目:127个
- ollama支持:已上线
商业验证:
- Cursor Composer 2核心基座
- Cloudflare成本降77%
- NVIDIA GTC展示
Harness工程成为核心能力
关键趋势:
- 从单Agent到多Agent协作
- Harness组件随模型进化而过时
- 评估体系成为产品核心竞争力
评估即产品
Anthropic的发现:
开箱即用的Claude是个差劲的QA——它发现问题,说服自己问题不大,然后批准。
Evaluator调优要点:
- 主观质量可量化(设计/原创/工艺/功能)
- 根据模型能力动态调整权重
- 让Evaluator能实际交互(Playwright MCP)
未来展望
短期(6-12个月)
- 更多产品采用多智能体架构
- 开源模型在编程场景份额提升
- Harness设计成为工程团队核心能力
中期(1-2年)
- 模型与Harness协同进化成熟
- 评估体系标准化
- AI Coding从辅助走向自主
长期(2-5年)
- 复杂项目完全自主开发
- 人类角色转向架构设计和审查
- 新的软件工程范式确立
结论
Cursor Composer 2和Anthropic Harness代表了AI Coding Agent的两种演进路径:
- Cursor路线:通过强大基座模型实现智能协作,追求极致性价比
- Anthropic路线:通过精妙Harness设计弥补模型局限,追求稳定可靠
两者互补而非替代:
- 日常开发 → Cursor「模型即Agent」
- 复杂项目 → Anthropic「Harness工程」
最终,AI Coding Agent的未来是模型与Harness的协同进化。
参考资源
本文基于2025年3月25日-26日最新技术动态整理