SWE-bench 刷新后，我反而更确定：测试不会消失最近 AI 圈又热闹了。新模型一个接一个，刷榜的消息一条接一条。

最近 AI 圈又热闹了。

新模型一个接一个，刷榜的消息一条接一条。
每次看到“AI 写代码超过 XX% 程序员”的标题，总有人来问我一句话：

“AI 已经能写代码了，那我们还有位置吗？”

这个问题问得不焦虑，但要回答它，得先想清楚一件事：

AI 的编程能力，现在到底走到了哪一步？

如果你想找一个相对客观的参考坐标，业内常被提到的，是一个叫 SWE-bench 的基准测试。

今天不制造焦虑，就从它说起，聊聊 AI 到了哪一步，人该站在哪。

01SWE-bench 测的到底是什么？

SWE-bench 的全称是 Software Engineering Benchmark。

它不是让你写个冒泡排序，也不是让你补全一个函数。它的任务是：

在真实开源项目的代码库里，定位并修复一个真实存在的 GitHub Issue。

这背后包含的能力是：

理解一个有几千个文件的真实项目
读懂用户提交的 Issue 报告，搞清楚问题现象
定位到具体的代码文件、具体的函数
修改代码，确保不破坏其他功能
成功跑通该项目原有的全部单元测试

这不是“写不写得出来代码”的问题。
这是能不能参与真实软件工程协作的问题。

02一个重要的信号

如果你把时间拉回 2024 年初，会发现一个很现实的情况：

在 SWE-bench 这样的工程型评测中，主流模型的成功率极低，几乎可以视为“不可用”。

但随着模型能力提升，以及 工程化 Agent 方案 的引入，这个情况开始发生变化。

到 2024 年下半年：

部人模型在结合工具调用、上下文管理、多轮反馈之后
在 SWE-bench 上的成功率，开始进入 两位数

进入 2025 年：

在公开评测中
部分最优方案的解决率，已经接近甚至超过 40%

这说明一件事：

AI 已经不再只是在“写代码”，而是开始具备在受限条件下参与工程任务的能力。

03这是否意味着：AI 已经能“独立干活”了？

还没有。

SWE-bench 的进步，同时也非常清楚地暴露了 AI 的边界。

在那些失败案例中，AI 往往卡在这些地方：

问题本身是模糊的
用户说“有点慢”“不太稳定”，但没有明确标准
需要权衡与取舍
多种修复方案都成立，但要选哪一个？
涉及复杂业务逻辑
一个改动，可能影响到另一个团队、另一个系统
需要承担后果
改动上线后出问题，谁来负责？

这些问题的共同点只有一个：

它们都需要“人”。

AI 可以生成代码，但它不会为结果负责。

04测试工程师的位置在哪？

这对测试工程师来说，尤其值得想清楚。

很多人担心：“AI都能自动生成测试用例、自动执行回归了，测试是不是要被取代了？”

但你想一个问题：

测试的核心是什么？

不是“点点点”，不是“写用例”，不是“跑脚本”——这些都只是手段。

测试的核心是：判断一个系统是否可信。

这个判断，包含了很多东西：

这个Bug严重吗？要不要拦住上线？
这个功能用户体验好吗？会不会被用户骂？
这个系统的性能够吗？大促会不会崩？
这个改动有风险吗？会不会影响别的模块？

这些问题，AI回答不了。

因为判断需要理解业务目标、用户场景、组织约束和潜在风险——而这些，恰好是测试工程师每天都在做的事。

05在 AI 时代，人最重要的三件事

所以，在AI越来越强的未来，人该站在哪？

不是和AI对抗，不是和AI比赛写代码，而是做好这三件事：

第一，定义问题。

AI很擅长解题，但不擅长选题。用户说的“有点卡”，到底是前端渲染慢，还是接口返回慢，还是网络问题？把这个模糊的现象翻译成可验证、可执行的工程任务，是人的责任。

第二，校验结果。

AI写了一段代码，改了一个Bug，跑通了所有测试。但它真的改对了吗？会不会在边缘场景引入新问题？会不会破坏未覆盖的业务路径？这个深度验证与风险兜底，必须由人完成。

第三，承担责任。

上线出问题了，AI不会被问责。用户投诉了，AI不会被追责。最后签字、复盘、改进流程的，永远是人。这听起来沉重，但这就是人和工具最本质的区别——人有判断，也有责任。

06不是替代，而是扩展

回到最开始那个问题：

“AI 已经能写代码了，那我们还有位置吗？”

我的答案是：

不仅有，而且更重要了。

因为 AI 越强，对“能判断的人”的需求就越高。

未来更可能是这样：

AI 帮你写脚本，你有时间思考系统风险
AI 帮你分析日志，你能关注更大的稳定性问题
AI 帮你生成用例，你可以深入理解业务逻辑

你不需要和 AI 比谁写代码快。

你要做的是：
让 AI 帮你干活，你去干 AI 干不了的活。

07写在最后

2026年的春天已经来了，路还长。

这一年，AI还会进化，模型还会更强，评测数字还会往上涨。

但有一件事不会变：

在需要判断对错、权衡利弊、承担责任的地方，永远需要人在。

你不是被AI替代的人。
你是那个用AI，让自己变得更强的人。

稳住，往前走。

霍格沃兹测试开发学社，隶属于 测吧（北京）科技有限公司，是一个面向软件测试爱好者的技术交流社区，聚焦软件测试、软件测试入门、自动化测试、性能测试、接口测试、测试开发、全栈测试，以及人工智能测试（AI 测试） 等方向。
学社内容覆盖 Python 自动化测试、Java 自动化测试、Web 自动化（Selenium、Playwright、App 自动化（Appium）、JMeter、LoadRunner、Jenkins 等测试技术与工具，同时关注 AI 在测试设计、用例生成、自动化执行、质量分析与测试平台建设中的应用，以及开源测试相关实践。
在人才培养方面，学社建设并运营高校测试实训平台，组织 “火焰杯” 软件测试相关技术赛事，探索面向高校学员的实践型培养模式，包括先学习、就业后付款等能力导向路径。
此外，学社还提供面向测试工程师的能力提升支持，包括名企大厂 1v1 私教服务，用于结合个人背景的定向指导与工程能力提升。