Cursor vs Anthropic:AI Coding Agent 的两种技术路线

85 阅读4分钟

Cursor Composer 2 vs Anthropic Harness:AI Coding Agent 多智能体架构深度解析

24小时内两大发布,AI编程进入多智能体时代

TL;DR

  • Cursor Composer 2:基于Kimi K2.5微调,CursorBench 661.3分,价格比Claude便宜86%
  • Anthropic Harness:三智能体架构(Planner+Generator+Evaluator),Claude连续6小时自主开发
  • 核心洞察:模型与Harness协同进化,开源模型已进入硅谷核心供应链

背景

2025年3月25日,AI编程领域迎来历史性时刻:

时间发布核心内容
3月25日Cursor Composer 2基于Kimi K2.5的编程模型
3月24日Anthropic Harness多智能体框架技术博客

两者代表了AI Coding Agent的两种技术路线,本文将深度对比。


Cursor Composer 2:模型即Agent

技术规格

CursorBench得分:661.3(> Claude Opus 4.6的582)
定价:$0.50/M input, $2.50/M output(Standard)
      $1.50/M input, $7.50/M output(Fast)
成本优势:比Claude便宜86%

Kimi K2.5基座

Cursor VP Lee Robinson承认:

Composer 2约25%预训练来自Kimi K2.5基座,75%来自Cursor自己的RL训练。

技术细节:

  • 通过Fireworks AI建立授权合作
  • Moonshot AI官方确认合作关系
  • 首次中国开源模型支撑硅谷明星产品核心

关键创新

MTP(Multi-Token Prediction)

# 同时预测多个token,提升推理速度
# 相比自回归生成,效率提升显著

自我总结机制

  • 主动压缩历史上下文
  • 避免长对话信息遗忘
  • 保持关键决策因子

增强调试模式

  • 主动定位bug
  • 提出修复假设
  • 执行验证并汇报

Anthropic Harness:Harness工程

核心问题诊断

Anthropic Labs成员Prithvi Rajasekaran坦诚指出:

1. 上下文焦虑(Context Anxiety)

现象:模型预感上下文将满,提前草草收尾
观察:在Claude Sonnet 4.5上非常明显
解决:上下文重置 + 结构化交接文件

2. 自我评估失真

现象:模型自信地批准自己的工作,哪怕实际很烂
原因:缺乏客观评估标准
解决:分离GeneratorEvaluator(借鉴GAN

三智能体架构

┌─────────────┐
│   Planner   │ ← 将需求扩展为详细spec
└──────┬──────┘
       │
       ▼
┌─────────────┐
│  Generator  │ ← 按sprint实现功能
└──────┬──────┘
       │
       ▼
┌─────────────┐
│  Evaluator  │ ← Playwright测试,独立评估
└─────────────┘

Sprint合同机制:

  • Generator提出方案
  • Evaluator审核"完成定义"
  • 达成一致后才动手

实验数据

方案耗时成本结果
单Agent20min$9界面有,功能无法运行
三Agent6h$200完全可玩,含AI关卡生成

Opus 4.6优化

模型进化带来的Harness简化:

Before(Sonnet 4.5):
- Sprint结构必需
- 频繁上下文重置
- Evaluator每sprint运行
- 成本:$200/6h

After(Opus 4.6):
- Sprint结构移除
- 连续运行2h无需重置
- Evaluator仅最后运行
- 成本:$125/4h

核心洞察:

Harness的每个组件都编码了「这件事模型自己做不好」的假设,这些假设会随模型进化而过时。


深度对比

技术哲学

维度CursorAnthropic
核心策略模型即AgentHarness工程
基座模型Kimi K2.5(开源)Claude Opus(闭源)
多智能体实现模型内部显式架构
成本极低中等
透明度初期不足,后补授权完全开源

代码示例对比

Cursor Composer 2使用:

// 模型自动处理多文件协作
const result = await composer.generate({
  prompt: "Create a full-stack app with auth",
  mode: "fast", // or "standard"
  // 模型内部协调多个子任务
});

Anthropic Harness使用:

# 显式定义三智能体
planner = Agent(role="planner", model="claude-opus-4.6")
generator = Agent(role="generator", model="claude-opus-4.6")
evaluator = Agent(role="evaluator", model="claude-opus-4.6")

# 显式编排
spec = planner.expand("Create a full-stack app with auth")
for sprint in spec.sprints:
    code = generator.implement(sprint)
    feedback = evaluator.test(code)
    if not feedback.approved:
        code = generator.revise(code, feedback)

行业影响

开源模型崛起

Kimi K2.5数据:

  • HuggingFace下载:356万+
  • GitHub集成项目:127个
  • ollama支持:已上线

商业验证:

  • Cursor Composer 2核心基座
  • Cloudflare成本降77%
  • NVIDIA GTC展示

Harness工程成为核心能力

关键趋势:

  1. 从单Agent到多Agent协作
  2. Harness组件随模型进化而过时
  3. 评估体系成为产品核心竞争力

评估即产品

Anthropic的发现:

开箱即用的Claude是个差劲的QA——它发现问题,说服自己问题不大,然后批准。

Evaluator调优要点:

  1. 主观质量可量化(设计/原创/工艺/功能)
  2. 根据模型能力动态调整权重
  3. 让Evaluator能实际交互(Playwright MCP)

未来展望

短期(6-12个月)

  • 更多产品采用多智能体架构
  • 开源模型在编程场景份额提升
  • Harness设计成为工程团队核心能力

中期(1-2年)

  • 模型与Harness协同进化成熟
  • 评估体系标准化
  • AI Coding从辅助走向自主

长期(2-5年)

  • 复杂项目完全自主开发
  • 人类角色转向架构设计和审查
  • 新的软件工程范式确立

结论

Cursor Composer 2和Anthropic Harness代表了AI Coding Agent的两种演进路径:

  • Cursor路线:通过强大基座模型实现智能协作,追求极致性价比
  • Anthropic路线:通过精妙Harness设计弥补模型局限,追求稳定可靠

两者互补而非替代:

  • 日常开发 → Cursor「模型即Agent」
  • 复杂项目 → Anthropic「Harness工程」

最终,AI Coding Agent的未来是模型与Harness的协同进化


参考资源

  1. Cursor Composer 2技术报告
  2. Anthropic Harness设计博客
  3. 智源社区:中国模型进入硅谷供应链
  4. 掘金:Anthropic Harness完整拆解

本文基于2025年3月25日-26日最新技术动态整理