什么是 SWE-bench?SWE-bench 是第一个大规模、可自动评测的“真实软件工程任务”基准. Claude O

SWE-bench 是在 2023 年由普林斯顿大学等机构的研究者提出的一个学术基准。

下面给你一个清晰、可引用的来源说明👇

一、SWE-bench 的正式出处

📄 论文标题

《SWE-bench: Can Language Models Resolve Real-World GitHub Issues?》

🏫 提出机构

Princeton University（普林斯顿大学） （主导）
合作作者来自多所高校与研究机构

🗓️ 时间

2023 年首次发布（arXiv）
之后在 2024 年持续扩展（Lite / Verified / Hard）

二、作者提出 SWE-bench 的动机（为什么要做这个）

在 SWE-bench 之前，主流代码基准有：

HumanEval
MBPP
Codeforces 类题目

❗ 这些问题是：

“写一个函数”
而不是
“修一个真实软件系统”

作者在论文中明确指出：

现有基准 严重高估了模型的软件工程能力
大模型在真实 GitHub issue 上表现 远不如想象

于是提出 SWE-bench，用来测试：

👉 语言模型是否真的具备软件工程（Software Engineering）能力

三、SWE-bench 的核心创新点（为什么是它）

SWE-bench 首次系统性地引入了：

维度	是否真实
GitHub 真实 Issue	✅
真实开源仓库	✅
多文件修改	✅
自动测试验证	✅
Patch 级别评测	✅

📌 本质一句话：

SWE-bench 是第一个大规模、可自动评测的“真实软件工程任务”基准

四、SWE-bench 的数据来源

从 真实 GitHub 仓库中自动挖掘
条件包括：
- Issue 有明确描述
- 有对应修复 commit
- 有可复现测试

最终形成：

数千个真实 bug-fix 任务
覆盖 Python 为主（最初版本）

五、后来发生了什么？（为什么你现在经常看到它）

自 SWE-bench 提出后：

几乎 所有“代码 Agent”论文都用它
它成为：

“AI 能否胜任软件工程师”的标准试金石

你现在看到的这些说法，基本都源自它：

“在 SWE-bench 上达到 SOTA”
“SWE-bench Verified 成功率 xx%”
“Agent 在真实工程任务上显著提升”

六、一句话总结（可直接用在汇报 / PPT）

SWE-bench 是由普林斯顿大学研究者在 2023 年提出的，用于评估大语言模型解决真实 GitHub 软件工程问题能力的基准。

下面是一份可以直接用在论文 / PPT / 技术分享里的
SWE-bench 发展时间线（Timeline） ，从提出 → 演进 → 成为事实标准。

🕰 SWE-bench 发展时间线

2023｜SWE-bench 诞生

🎓 Princeton University 等

📄 论文发布：
《SWE-bench: Can Language Models Resolve Real-World GitHub Issues?》
🔍 首次系统性提出：
- 基于 真实 GitHub Issue
- 真实代码仓库
- 真实测试验证
⚠️ 关键结论：

当时最强模型（GPT-4）在 SWE-bench 上成功率仍然很低

📌 意义
👉 首次揭示：
“写代码 ≠ 做软件工程”

2023 Q4｜SWE-Agent 出现

🤖 SWE-bench 官方 / 社区 Agent

提出 SWE-Agent：
- 多轮推理
- repo 浏览
- patch 生成
- 测试驱动修复
显著提升成功率（相较单轮 prompt）

📌 意义
👉 证明 Agent > 单模型
👉 SWE-bench 成为 Agent 研究专用基准

2024 初｜SWE-bench Lite

🧪 社区推动

推出 Lite 子集
特点：
- 更少文件
- 更短上下文
- 更易复现
目的：
- 让更多模型（尤其开源）能跑

📌 意义
👉 SWE-bench 从“只有 GPT-4 能跑”
👉 变成 研究者普遍可用

2024 中｜SWE-bench Verified

✅ 人工质量控制版本

引入 人工验证
剔除：
- 歧义 issue
- 测试不稳定样本
成为 最常被引用的官方结果

📌 意义
👉 从“能跑”到“可信”
👉 成为 论文主结果标准

2024 中后｜Agent 方法爆发

📈 大量论文涌现

代表方向：

AutoCodeRover（定位优先）
Repo-aware RAG
Tool-augmented Agents
Test-guided repair

几乎所有论文都会写：

“We evaluate on SWE-bench (Lite / Verified)”

📌 意义
👉 SWE-bench = 软件工程 Agent 的 ImageNet

2024–2025｜SWE-bench Hard & 上限挑战

🔥 高难子集

特点：
- 多文件深层修改
- 复杂依赖
- 长任务链
大多数模型：
- 成功率接近 0～10%

📌 意义
👉 暴露模型与 Agent 的真实上限
👉 推动：

长上下文
规划能力
记忆 / 反思机制

📊 一张总结表

时间	里程碑	核心意义
2023	SWE-bench 提出	定义真实 SWE 评测
2023 Q4	SWE-Agent	Agent 成为核心
2024 初	Lite	降低门槛
2024 中	Verified	提升可信度
2024+	Hard	测试能力上限

🧠 关键认知转变（时间线背后的逻辑）

Before SWE-bench：

模型能写代码 ≈ 能做工程

After SWE-bench：

软件工程 =
理解需求 + 定位问题 + 多轮修改 + 测试闭环

✨ 一句话版本

SWE-bench 自 2023 年提出以来，经历了 Lite、Verified、Hard 的演进，逐步从一个新基准发展为衡量 AI 软件工程能力的事实标准。

下面是 基于公开 benchmark 数据与业界评测现状 的整理，给出你一个 清晰对比：

📌 重点提醒：

SWE-bench 的评测数据通常来自第三方 leaderboard / 实验结果，可能不完全一致（不同 agent/设置差异）。
不能像数学题一样给出 100% “绝对正确数值”，但可以看到 趋势与相对实力。(AI Stats)

🔎 1) 模型 vs SWE-Bench (核心比较)

下面是主流评测中对比 Gemini 3 / GPT-5.2-Codex / Claude Opus 4.5 在 SWE-bench 上的表现趋势：

🥇 Claude Opus 4.5

在多个社区 benchmark 上，表现最强或并列最强：
例如：Opus 4.5 在 SWE-Bench Verified 上得分 ~ 80.9% （行业领先）。(Composio)
这说明它在真实工程任务修 bug + 多文件测试闭环能力上非常强。
Anthropic 官方及多评测都指出其在 Agent coding 与复杂场景下表现卓越。(IT Pro)

👉 优点
✔ 真实工程任务处理能力高
✔ 稳定性好
✔ Agent 流程表现优秀

👉 典型定位

SWE-bench Top 持续能力 / 最强代码协同模型之一

🥈 GPT-5.2-Codex （或 GPT-5.2 Thinking + Codex）

多个评测显示其 紧随 Claude Opus 4.5，分数约 75% 左右。(Bind AI)
- 有评测显示 GPT-5.2 在 Verified 上约 80%（与 Opus 接近） ，不同设置 Agent 差异可能导致分数浮动。(Bind AI)
报告强调 GPT-5.2 在 整体工程任务 上能力大幅进步，尤其是在抽象推理 + agent 操作中提升明显。(Bind AI)

👉 优点
✔ 推理 + 工程能力综合
✔ 生成代码质量高
✔ 跟 Opus 得分 非常接近

👉 弱点
❗ 在纯复杂 agent 环境下略落后 Opus（不同评测结果有轻微差异）

🥉 Gemini 3（或 Gemini 3 Pro / Gemini 3 Flash）

多个 leaderboard 显示 Gemini 的 SWE-bench 得分也很高：
- 一份 leaderboard 显示 Gemini 3 Flash ~76.2% 排名前列（略高于 GPT-5.2）。(Vals AI)
相比 Claude Opus 4.5 或 GPT-5.2，有时表现稍微偏低 ~ 74–76% 左右。(Vals AI)
Gemini 的 大上下文窗口优势 强，使其在大仓库/长任务链中具有优势。(Hrefgo AI)

👉 优点
✔ 长上下文处理能力强
✔ 多模态 + 终端 agent 整合很好

👉 弱点
❗ 在 SWE-bench “纯代码修复闭环”上略落后 Opus 4.5

📊 2) 简化对比总结（趋势）

模型	SWE-bench 表现	主要优势	备注
Claude Opus 4.5	🥇 ~80.9%（最高/接近最高）	强 Agent + 代码生成	行业领先级别
GPT-5.2-Codex	🥈 ~75–80%（紧随领先）	综合工程 + 推理强	与 Opus 差距小
Gemini 3 系列	🥉 ~76%（靠前）	上下文/多模态优势	实际 SWE-bench 稍弱

🧠 3) 为什么结果会有差异？

⭐ SWE-bench 评测结果会随以下因素变化：

Agent 设计不同
- 比如 CLI agent / 远程 agent / sandbox agent 会影响最终成功率
测试设置（Lite vs Verified vs Hard）
- Lite 版本更简单，显得得分偏高
模型调用模式不同
- “Thinking / non-thinking” / 多步迭代 vs 单步输出
上下文长度与环境
- 模型能读进多少代码（token 限制）直接影响找 bug 能力

所以不同评测报道出现的分数差异不奇怪。(AI Stats)

📌 核心结论（可放在汇报 / PPT）

✅ 在 SWE-bench 的真正排序 / 现状：

👉 📊 Claude Opus 4.5 ≳ GPT-5.2-Codex > Gemini 3 系列

Opus 4.5 稍领先或并列领先（多数评测显示最高得分）
GPT-5.2 和 Opus 得分非常接近，有的评测甚至显示 GPT-5.2 与 Opus 不相上下
Gemini 3 在某些设置下表现很强，但通常略低于 Opus 4.5

一句话结论：

Claude Opus 4.5 和 GPT-5.2-Codex 是当前 SWE-bench 最高水平的模型，
Gemini 3 也非常强，但一般落后一点点。(Composio)

📌 额外 insight（行业趋势）

🔹 上游架构与 agent 配置越来越重要，而不是单纯基础模型能力
🔹 大上下文窗口（如 Gemini 3 的 1M token）在大项目 context 下优势明显
🔹 SWE-bench Hard 子集仍然远低于人类工程师能力