Cursor vs Anthropic：AI Coding Agent 的两种技术路线Cursor Composer 2

Cursor Composer 2 vs Anthropic Harness：AI Coding Agent 多智能体架构深度解析

24小时内两大发布，AI编程进入多智能体时代

TL;DR

Cursor Composer 2：基于Kimi K2.5微调，CursorBench 661.3分，价格比Claude便宜86%
Anthropic Harness：三智能体架构（Planner+Generator+Evaluator），Claude连续6小时自主开发
核心洞察：模型与Harness协同进化，开源模型已进入硅谷核心供应链

背景

2025年3月25日，AI编程领域迎来历史性时刻：

时间	发布	核心内容
3月25日	Cursor Composer 2	基于Kimi K2.5的编程模型
3月24日	Anthropic Harness	多智能体框架技术博客

两者代表了AI Coding Agent的两种技术路线，本文将深度对比。

Cursor Composer 2：模型即Agent

技术规格

CursorBench得分：661.3（> Claude Opus 4.6的582）
定价：$0.50/M input, $2.50/M output（Standard）
      $1.50/M input, $7.50/M output（Fast）
成本优势：比Claude便宜86%

Kimi K2.5基座

Cursor VP Lee Robinson承认：

Composer 2约25%预训练来自Kimi K2.5基座，75%来自Cursor自己的RL训练。

技术细节：

通过Fireworks AI建立授权合作
Moonshot AI官方确认合作关系
首次中国开源模型支撑硅谷明星产品核心

关键创新

MTP（Multi-Token Prediction）

# 同时预测多个token，提升推理速度
# 相比自回归生成，效率提升显著

自我总结机制

主动压缩历史上下文
避免长对话信息遗忘
保持关键决策因子

增强调试模式

主动定位bug
提出修复假设
执行验证并汇报

Anthropic Harness：Harness工程

核心问题诊断

Anthropic Labs成员Prithvi Rajasekaran坦诚指出：

1. 上下文焦虑（Context Anxiety）

现象：模型预感上下文将满，提前草草收尾
观察：在Claude Sonnet 4.5上非常明显
解决：上下文重置 + 结构化交接文件

2. 自我评估失真

现象：模型自信地批准自己的工作，哪怕实际很烂
原因：缺乏客观评估标准
解决：分离Generator和Evaluator（借鉴GAN）

三智能体架构

┌─────────────┐
│   Planner   │ ← 将需求扩展为详细spec
└──────┬──────┘
       │
       ▼
┌─────────────┐
│  Generator  │ ← 按sprint实现功能
└──────┬──────┘
       │
       ▼
┌─────────────┐
│  Evaluator  │ ← Playwright测试，独立评估
└─────────────┘

Sprint合同机制：

Generator提出方案
Evaluator审核"完成定义"
达成一致后才动手

实验数据

方案	耗时	成本	结果
单Agent	20min	$9	界面有，功能无法运行
三Agent	6h	$200	完全可玩，含AI关卡生成

Opus 4.6优化

模型进化带来的Harness简化：

Before（Sonnet 4.5）：
- Sprint结构必需
- 频繁上下文重置
- Evaluator每sprint运行
- 成本：$200/6h

After（Opus 4.6）：
- Sprint结构移除
- 连续运行2h无需重置
- Evaluator仅最后运行
- 成本：$125/4h

核心洞察：

Harness的每个组件都编码了「这件事模型自己做不好」的假设，这些假设会随模型进化而过时。

深度对比

技术哲学

维度	Cursor	Anthropic
核心策略	模型即Agent	Harness工程
基座模型	Kimi K2.5（开源）	Claude Opus（闭源）
多智能体实现	模型内部	显式架构
成本	极低	中等
透明度	初期不足，后补授权	完全开源

代码示例对比

Cursor Composer 2使用：

// 模型自动处理多文件协作
const result = await composer.generate({
  prompt: "Create a full-stack app with auth",
  mode: "fast", // or "standard"
  // 模型内部协调多个子任务
});

Anthropic Harness使用：

# 显式定义三智能体
planner = Agent(role="planner", model="claude-opus-4.6")
generator = Agent(role="generator", model="claude-opus-4.6")
evaluator = Agent(role="evaluator", model="claude-opus-4.6")

# 显式编排
spec = planner.expand("Create a full-stack app with auth")
for sprint in spec.sprints:
    code = generator.implement(sprint)
    feedback = evaluator.test(code)
    if not feedback.approved:
        code = generator.revise(code, feedback)

行业影响

开源模型崛起

Kimi K2.5数据：

HuggingFace下载：356万+
GitHub集成项目：127个
ollama支持：已上线

商业验证：

Cursor Composer 2核心基座
Cloudflare成本降77%
NVIDIA GTC展示

Harness工程成为核心能力

关键趋势：

从单Agent到多Agent协作
Harness组件随模型进化而过时
评估体系成为产品核心竞争力

评估即产品

Anthropic的发现：

开箱即用的Claude是个差劲的QA——它发现问题，说服自己问题不大，然后批准。

Evaluator调优要点：

主观质量可量化（设计/原创/工艺/功能）
根据模型能力动态调整权重
让Evaluator能实际交互（Playwright MCP）

未来展望

短期（6-12个月）

更多产品采用多智能体架构
开源模型在编程场景份额提升
Harness设计成为工程团队核心能力

中期（1-2年）

模型与Harness协同进化成熟
评估体系标准化
AI Coding从辅助走向自主

长期（2-5年）

复杂项目完全自主开发
人类角色转向架构设计和审查
新的软件工程范式确立

结论

Cursor Composer 2和Anthropic Harness代表了AI Coding Agent的两种演进路径：

Cursor路线：通过强大基座模型实现智能协作，追求极致性价比
Anthropic路线：通过精妙Harness设计弥补模型局限，追求稳定可靠

两者互补而非替代：

日常开发 → Cursor「模型即Agent」
复杂项目 → Anthropic「Harness工程」

最终，AI Coding Agent的未来是模型与Harness的协同进化。

参考资源

本文基于2025年3月25日-26日最新技术动态整理