SWE-bench 刷新后,我反而更确定:测试不会消失

0 阅读6分钟

最近 AI 圈又热闹了。

新模型一个接一个,刷榜的消息一条接一条。
每次看到“AI 写代码超过 XX% 程序员”的标题,总有人来问我一句话:

“AI 已经能写代码了,那我们还有位置吗?”

这个问题问得不焦虑,但要回答它,得先想清楚一件事:

AI 的编程能力,现在到底走到了哪一步?

如果你想找一个相对客观的参考坐标,业内常被提到的,是一个叫 SWE-bench 的基准测试。

今天不制造焦虑,就从它说起,聊聊 AI 到了哪一步,人该站在哪。

图片
01SWE-bench 测的到底是什么?
图片
SWE-bench 的全称是 Software Engineering Benchmark

它不是让你写个冒泡排序,也不是让你补全一个函数。它的任务是:

在真实开源项目的代码库里,定位并修复一个真实存在的 GitHub Issue。

这背后包含的能力是:

  • 理解一个有几千个文件的真实项目
  • 读懂用户提交的 Issue 报告,搞清楚问题现象
  • 定位到具体的代码文件、具体的函数
  • 修改代码,确保不破坏其他功能
  • 成功跑通该项目原有的全部单元测试

这不是“写不写得出来代码”的问题。
这是能不能参与真实软件工程协作的问题。

图片

02一个重要的信号
图片
如果你把时间拉回 2024 年初,会发现一个很现实的情况:

在 SWE-bench 这样的工程型评测中,主流模型的成功率极低,几乎可以视为“不可用”。

但随着模型能力提升,以及 工程化 Agent 方案 的引入,这个情况开始发生变化。

到 2024 年下半年:

  • 部人模型在结合工具调用、上下文管理、多轮反馈之后
  • 在 SWE-bench 上的成功率,开始进入 两位数

进入 2025 年:

  • 在公开评测中
  • 部分最优方案的解决率,已经接近甚至超过 40%

这说明一件事:

AI 已经不再只是在“写代码”,而是开始具备在受限条件下参与工程任务的能力。

图片
03这是否意味着:AI 已经能“独立干活”了?
图片
还没有。

SWE-bench 的进步,同时也非常清楚地暴露了 AI 的边界。

在那些失败案例中,AI 往往卡在这些地方:

  • 问题本身是模糊的
    用户说“有点慢”“不太稳定”,但没有明确标准
  • 需要权衡与取舍
    多种修复方案都成立,但要选哪一个?
  • 涉及复杂业务逻辑
    一个改动,可能影响到另一个团队、另一个系统
  • 需要承担后果
    改动上线后出问题,谁来负责?

这些问题的共同点只有一个:

它们都需要“人”。

AI 可以生成代码,但它不会为结果负责。

图片
04测试工程师的位置在哪?

这对测试工程师来说,尤其值得想清楚。

很多人担心:“AI都能自动生成测试用例、自动执行回归了,测试是不是要被取代了?”

但你想一个问题:

测试的核心是什么?

不是“点点点”,不是“写用例”,不是“跑脚本”——这些都只是手段。

测试的核心是:判断一个系统是否可信。

这个判断,包含了很多东西:

  • 这个Bug严重吗?要不要拦住上线?
  • 这个功能用户体验好吗?会不会被用户骂?
  • 这个系统的性能够吗?大促会不会崩?
  • 这个改动有风险吗?会不会影响别的模块?

这些问题,AI回答不了。

因为判断需要理解业务目标、用户场景、组织约束和潜在风险——而这些,恰好是测试工程师每天都在做的事。

05在 AI 时代,人最重要的三件事

所以,在AI越来越强的未来,人该站在哪?

不是和AI对抗,不是和AI比赛写代码,而是做好这三件事:

第一,定义问题。

AI很擅长解题,但不擅长选题。用户说的“有点卡”,到底是前端渲染慢,还是接口返回慢,还是网络问题?把这个模糊的现象翻译成可验证、可执行的工程任务,是人的责任。

第二,校验结果。

AI写了一段代码,改了一个Bug,跑通了所有测试。但它真的改对了吗?会不会在边缘场景引入新问题?会不会破坏未覆盖的业务路径?这个深度验证与风险兜底,必须由人完成。

第三,承担责任。

上线出问题了,AI不会被问责。用户投诉了,AI不会被追责。最后签字、复盘、改进流程的,永远是人。这听起来沉重,但这就是人和工具最本质的区别——人有判断,也有责任

06不是替代,而是扩展

回到最开始那个问题:

“AI 已经能写代码了,那我们还有位置吗?”

我的答案是:

不仅有,而且更重要了。

因为 AI 越强,对“能判断的人”的需求就越高。

未来更可能是这样:

  • AI 帮你写脚本,你有时间思考系统风险
  • AI 帮你分析日志,你能关注更大的稳定性问题
  • AI 帮你生成用例,你可以深入理解业务逻辑

你不需要和 AI 比谁写代码快。

你要做的是:
让 AI 帮你干活,你去干 AI 干不了的活。

07写在最后

2026年的春天已经来了,路还长。

这一年,AI还会进化,模型还会更强,评测数字还会往上涨。

但有一件事不会变:

在需要判断对错、权衡利弊、承担责任的地方,永远需要人在。

你不是被AI替代的人。
你是那个用AI,让自己变得更强的人

稳住,往前走。

霍格沃兹测试开发学社,隶属于 测吧(北京)科技有限公司,是一个面向软件测试爱好者的技术交流社区,聚焦软件测试、软件测试入门、自动化测试、性能测试、接口测试、测试开发、全栈测试,以及人工智能测试(AI 测试) 等方向。
学社内容覆盖 Python 自动化测试、Java 自动化测试、Web 自动化(Selenium、Playwright、App 自动化(Appium)、JMeter、LoadRunner、Jenkins 等测试技术与工具,同时关注 AI 在测试设计、用例生成、自动化执行、质量分析与测试平台建设中的应用,以及开源测试相关实践。
在人才培养方面,学社建设并运营高校测试实训平台,组织  “火焰杯” 软件测试相关技术赛事,探索面向高校学员的实践型培养模式,包括先学习、就业后付款等能力导向路径。
此外,学社还提供面向测试工程师的能力提升支持,包括名企大厂 1v1 私教服务,用于结合个人背景的定向指导与工程能力提升。

image.png