什么是 SWE-bench?

4 阅读8分钟

SWE-bench 是在 2023 年由普林斯顿大学等机构的研究者提出的一个学术基准。

下面给你一个清晰、可引用的来源说明👇


一、SWE-bench 的正式出处

📄 论文标题

《SWE-bench: Can Language Models Resolve Real-World GitHub Issues?》

🏫 提出机构

  • Princeton University(普林斯顿大学) (主导)
  • 合作作者来自多所高校与研究机构

🗓️ 时间

  • 2023 年首次发布(arXiv)
  • 之后在 2024 年持续扩展(Lite / Verified / Hard)

二、作者提出 SWE-bench 的动机(为什么要做这个)

在 SWE-bench 之前,主流代码基准有:

  • HumanEval
  • MBPP
  • Codeforces 类题目

❗ 这些问题是:

“写一个函数”
而不是
“修一个真实软件系统”

作者在论文中明确指出:

  • 现有基准 严重高估了模型的软件工程能力
  • 大模型在真实 GitHub issue 上表现 远不如想象

于是提出 SWE-bench,用来测试:

👉 语言模型是否真的具备软件工程(Software Engineering)能力


三、SWE-bench 的核心创新点(为什么是它)

SWE-bench 首次系统性地引入了:

维度是否真实
GitHub 真实 Issue
真实开源仓库
多文件修改
自动测试验证
Patch 级别评测

📌 本质一句话:

SWE-bench 是第一个大规模、可自动评测的“真实软件工程任务”基准


四、SWE-bench 的数据来源

  • 真实 GitHub 仓库中自动挖掘

  • 条件包括:

    • Issue 有明确描述
    • 有对应修复 commit
    • 有可复现测试

最终形成:

  • 数千个真实 bug-fix 任务
  • 覆盖 Python 为主(最初版本)

五、后来发生了什么?(为什么你现在经常看到它)

自 SWE-bench 提出后:

  • 几乎 所有“代码 Agent”论文都用它

  • 它成为:

    “AI 能否胜任软件工程师”的标准试金石

你现在看到的这些说法,基本都源自它:

  • “在 SWE-bench 上达到 SOTA”
  • “SWE-bench Verified 成功率 xx%”
  • “Agent 在真实工程任务上显著提升”

六、一句话总结(可直接用在汇报 / PPT)

SWE-bench 是由普林斯顿大学研究者在 2023 年提出的,用于评估大语言模型解决真实 GitHub 软件工程问题能力的基准。

下面是一份可以直接用在论文 / PPT / 技术分享里的
SWE-bench 发展时间线(Timeline) ,从提出 → 演进 → 成为事实标准。

🕰 SWE-bench 发展时间线

2023|SWE-bench 诞生

🎓 Princeton University 等

  • 📄 论文发布:
    《SWE-bench: Can Language Models Resolve Real-World GitHub Issues?》

  • 🔍 首次系统性提出:

    • 基于 真实 GitHub Issue
    • 真实代码仓库
    • 真实测试验证
  • ⚠️ 关键结论:

    当时最强模型(GPT-4)在 SWE-bench 上成功率仍然很低

📌 意义
👉 首次揭示:
“写代码 ≠ 做软件工程”


2023 Q4|SWE-Agent 出现

🤖 SWE-bench 官方 / 社区 Agent

  • 提出 SWE-Agent

    • 多轮推理
    • repo 浏览
    • patch 生成
    • 测试驱动修复
  • 显著提升成功率(相较单轮 prompt)

📌 意义
👉 证明 Agent > 单模型
👉 SWE-bench 成为 Agent 研究专用基准


2024 初|SWE-bench Lite

🧪 社区推动

  • 推出 Lite 子集

  • 特点:

    • 更少文件
    • 更短上下文
    • 更易复现
  • 目的:

    • 让更多模型(尤其开源)能跑

📌 意义
👉 SWE-bench 从“只有 GPT-4 能跑”
👉 变成 研究者普遍可用


2024 中|SWE-bench Verified

✅ 人工质量控制版本

  • 引入 人工验证

  • 剔除:

    • 歧义 issue
    • 测试不稳定样本
  • 成为 最常被引用的官方结果

📌 意义
👉 从“能跑”到“可信”
👉 成为 论文主结果标准


2024 中后|Agent 方法爆发

📈 大量论文涌现

代表方向:

  • AutoCodeRover(定位优先)
  • Repo-aware RAG
  • Tool-augmented Agents
  • Test-guided repair

几乎所有论文都会写:

“We evaluate on SWE-bench (Lite / Verified)”

📌 意义
👉 SWE-bench = 软件工程 Agent 的 ImageNet


2024–2025|SWE-bench Hard & 上限挑战

🔥 高难子集

  • 特点:

    • 多文件深层修改
    • 复杂依赖
    • 长任务链
  • 大多数模型:

    • 成功率接近 0~10%

📌 意义
👉 暴露模型与 Agent 的真实上限
👉 推动:

  • 长上下文
  • 规划能力
  • 记忆 / 反思机制

📊 一张总结表

时间里程碑核心意义
2023SWE-bench 提出定义真实 SWE 评测
2023 Q4SWE-AgentAgent 成为核心
2024 初Lite降低门槛
2024 中Verified提升可信度
2024+Hard测试能力上限

🧠 关键认知转变(时间线背后的逻辑)

Before SWE-bench:

模型能写代码 ≈ 能做工程

After SWE-bench:

软件工程 =
理解需求 + 定位问题 + 多轮修改 + 测试闭环

✨ 一句话版本

SWE-bench 自 2023 年提出以来,经历了 Lite、Verified、Hard 的演进,逐步从一个新基准发展为衡量 AI 软件工程能力的事实标准。

下面是 基于公开 benchmark 数据与业界评测现状 的整理,给出你一个 清晰对比

📌 重点提醒

  • SWE-bench 的评测数据通常来自第三方 leaderboard / 实验结果,可能不完全一致(不同 agent/设置差异)。
  • 不能像数学题一样给出 100% “绝对正确数值”,但可以看到 趋势与相对实力。(AI Stats)

🔎 1) 模型 vs SWE-Bench (核心比较)

下面是主流评测中对比 Gemini 3 / GPT-5.2-Codex / Claude Opus 4.5 在 SWE-bench 上的表现趋势:

🥇 Claude Opus 4.5

  • 在多个社区 benchmark 上,表现最强或并列最强
    例如:Opus 4.5 在 SWE-Bench Verified 上得分 ~ 80.9% (行业领先)。(Composio)
  • 这说明它在真实工程任务修 bug + 多文件测试闭环能力上非常强
  • Anthropic 官方及多评测都指出其在 Agent coding 与复杂场景下表现卓越。(IT Pro)

👉 优点
✔ 真实工程任务处理能力高
✔ 稳定性好
✔ Agent 流程表现优秀

👉 典型定位

SWE-bench Top 持续能力 / 最强代码协同模型之一


🥈 GPT-5.2-Codex (或 GPT-5.2 Thinking + Codex)

  • 多个评测显示其 紧随 Claude Opus 4.5,分数约 75% 左右。(Bind AI)

    • 有评测显示 GPT-5.2 在 Verified 上约 80%(与 Opus 接近) ,不同设置 Agent 差异可能导致分数浮动。(Bind AI)
  • 报告强调 GPT-5.2 在 整体工程任务 上能力大幅进步,尤其是在抽象推理 + agent 操作中提升明显。(Bind AI)

👉 优点
✔ 推理 + 工程能力综合
✔ 生成代码质量高
✔ 跟 Opus 得分 非常接近

👉 弱点
❗ 在纯复杂 agent 环境下略落后 Opus(不同评测结果有轻微差异)


🥉 Gemini 3(或 Gemini 3 Pro / Gemini 3 Flash)

  • 多个 leaderboard 显示 Gemini 的 SWE-bench 得分也很高:

    • 一份 leaderboard 显示 Gemini 3 Flash ~76.2% 排名前列(略高于 GPT-5.2)。(Vals AI)
  • 相比 Claude Opus 4.5 或 GPT-5.2,有时表现稍微偏低 ~ 74–76% 左右。(Vals AI)

  • Gemini 的 大上下文窗口优势 强,使其在大仓库/长任务链中具有优势。(Hrefgo AI)

👉 优点
✔ 长上下文处理能力强
✔ 多模态 + 终端 agent 整合很好

👉 弱点
❗ 在 SWE-bench “纯代码修复闭环”上略落后 Opus 4.5


📊 2) 简化对比总结(趋势)

模型SWE-bench 表现主要优势备注
Claude Opus 4.5🥇 ~80.9%(最高/接近最高)强 Agent + 代码生成行业领先级别
GPT-5.2-Codex🥈 ~75–80%(紧随领先)综合工程 + 推理强与 Opus 差距小
Gemini 3 系列🥉 ~76%(靠前)上下文/多模态优势实际 SWE-bench 稍弱

🧠 3) 为什么结果会有差异?

⭐ SWE-bench 评测结果会随以下因素变化:

  • Agent 设计不同

    • 比如 CLI agent / 远程 agent / sandbox agent 会影响最终成功率
  • 测试设置(Lite vs Verified vs Hard)

    • Lite 版本更简单,显得得分偏高
  • 模型调用模式不同

    • “Thinking / non-thinking” / 多步迭代 vs 单步输出
  • 上下文长度与环境

    • 模型能读进多少代码(token 限制)直接影响找 bug 能力

所以不同评测报道出现的分数差异不奇怪。(AI Stats)


📌 核心结论(可放在汇报 / PPT)

✅ 在 SWE-bench 的真正排序 / 现状:

👉 📊 Claude Opus 4.5 ≳ GPT-5.2-Codex > Gemini 3 系列

  • Opus 4.5 稍领先或并列领先(多数评测显示最高得分)
  • GPT-5.2 和 Opus 得分非常接近,有的评测甚至显示 GPT-5.2 与 Opus 不相上下
  • Gemini 3 在某些设置下表现很强,但通常略低于 Opus 4.5

一句话结论:

Claude Opus 4.5 和 GPT-5.2-Codex 是当前 SWE-bench 最高水平的模型
Gemini 3 也非常强,但一般落后一点点。(Composio)


📌 额外 insight(行业趋势)

🔹 上游架构与 agent 配置越来越重要,而不是单纯基础模型能力
🔹 大上下文窗口(如 Gemini 3 的 1M token)在大项目 context 下优势明显
🔹 SWE-bench Hard 子集仍然远低于人类工程师能力