AI 重塑研发全流程:从 Coding 到 Test,测试开发如何不掉队?

2 阅读8分钟

一场由大模型驱动的研发变革正在发生,AI 不再只是代码补全工具,而是能独立完成需求、测试、发布的“数字员工”。本文结合某电商企业的落地实践,带你了解 AI Coding、AI Test 的全景,并聚焦测试开发在 AI 项目中的新角色。

一、AI 编程,为什么突然火了?

2025 年被称为 AI 应用元年,编程领域的变化尤为剧烈:

  • 工具爆发:从 GitHub Copilot(2000 万用户)到 Cursor(230 万用户),再到 Claude Code(3 个月增长 10 倍),AI 编程工具已经全面铺开。
  • 收入惊人:Copilot 年收入超 3 亿美元,Cursor 和 Claude Code 均超 5 亿美元。
  • 门槛降低氛围编程 兴起,产品经理甚至能用自然语言直接交付可交互的原型。

但在企业级软件工程中,AI 落地远非“让 AI 写几段代码”那么简单。大规模、高复杂、多协作、私有化——这四大特点,让 AI 必须与现有研发体系深度融合。

二、AI Coding:从个人助手到规模协同

2.1 路线选择:以 Agent 为主,人监督

过去的人主导、AI 辅助模式存在信息传递低效、经验无法复用、规模化困难等问题。因此,某电商企业选择了 以 Agent 为主,人监督 的路线,像搭建一个开发团队一样构建 Coding Agent。

2.2 核心架构

一个专业的 Coding Agent 需要具备:

  • 垂直编程大模型(如 Claude Code 底座)
  • 上下文工程(引入企业规范、约束)
  • 长期记忆(将开发者的纠偏沉淀为经验)
  • 内部知识库(业务术语、技术选型、工程现状)
  • 工具链集成(通过 MCP 对接需求平台、Git、飞书等)
  • 云端沙箱(每个会话独立、无状态、可水平扩容)
  • 多 Agent 协同(按流程拆分:需求解析、代码定位、方案生成、编码、审查)

2.3 长期记忆:让 Agent 越用越聪明

AI 刚接入时效果并不好,因为大量经验藏在开发者脑中。为此,团队打造了长期记忆系统

  • 提取开发者的纠偏对话 → 自然语言+标签存储 → 向量检索召回 → 定期遗忘/泛化。
  • 效果:同类任务从需要 510 轮修正降低到 13 轮。

2.4 人工监督(HITL)

  • 面向开发者:通过飞书 IM + 文档 + GitLab,在每个阶段(需求清单、方案、代码、效果)审核和修正。
  • 面向管理者:多维表格仪表盘,监控交付率、对话轮次、Token 消耗等。

2.5 落地成果

  • 已交付近百个需求,综合提效 30%(含人工监督耗时)。
  • 单个需求 Token 费用不足 100 元人民币。
  • 典型场景:翻译型任务(如基础库升级,50 人日 → 几十分钟)、跨域编程(学习成本几乎抹平)。

📱 一个有趣的插曲:开发同学外出聚餐没带电脑,用手机飞书唤醒 Agent,描述 Bug,Agent 改完并发布,全程只花了几分钟。

三、AI Test:从自动化到智能化

传统自动化测试面临编写门槛高、维护成本高、失败排查难等问题。AI 时代编码效率提升,测试必须更快、更智能

3.1 AI 用例标准化

历史用例质量参差不齐,导致 GIGO(垃圾进,垃圾出) 。解决方案是:

  • 自然语言用例:兼具语义性和可执行性。
  • 存量优化:LLM 生成规范名称、补充断言。
  • 增量生成:结合业务知识库 + 参考历史用例。

3.2 AI 增强录制

传统录制步骤冗余、定位不准。新方案:

  • 用户操作时,同时录制 DOM + 截图 → 多模态 LLM 分析 → 生成自然语言步骤。
  • 通过 DOM 裁切(降低 99% Token)、交互区域标注父级元素标注,准确率从 70% 提升至 89%。
  • 耗时 5~10 秒,跨平台(Web、App、小程序、鸿蒙等)。

3.3 AI 用例执行

  • 任务中心统一调度,每天执行超 10 万次,成功率 96%。
  • 提速策略:优先程序执行,失败时 AI 兜底,成功后 AI 自愈更新脚本。
  • 模型选型:UI-TARS-1.5 在元素定位精度和移动端表现最佳。

3.4 AI 无参考测试

不需要预期结果,让 LLM 自主判断页面是否异常。为此引入监督微调(LoRA)

  • 构建思维链微调数据(Instruction + Input + Output + 内部知识 + 分析过程)。
  • 正负样本比例 1:3,避免模型“总是发现问题”。
  • 目前垂直模型正在微调中。

3.5 AI 归因归类与修复

  • 归因归类:100 条失败用例从人工 15 分钟 → AI 1 分钟,准确率 85%。
  • 自动修复:针对像素波动、非核心元素变化,准确率 60%,人工确认后可一键修复。

四、Agent 评测:从炫酷到生产可用

Agent 开发完 ≠ 可以上线。传统软件测试有确定预期,Agent 的输出是开放、不确定的,必须建立评测体系

4.1 评测集

  • 类型:有参考 / 无参考 / 参考资料。
  • 构造:人工标注 50~100 条种子 → LLM 泛化 → 线上采样补充 Badcase。
  • 划分:种子集、Badcase 集、扩展集、对抗集、场景集。

4.2 评测器

  • 初期人工评测,后期自动化(裁判模型)。
  • 评分归一化:0~5 分,兼顾可解释性与区分度。
  • 加入 CoT(思维链) 提升可解释性和一致性。

4.3 评测指标

  • 效果指标:准确率、召回率、任务完成率。
  • 技术指标:Token 消耗、延迟。
  • 用户指标:点赞率、纠偏率。
  • 裁判模型自身指标:人工一致性、评分方差、异常打分率。

4.4 反馈系统

  • 显式反馈:点赞/点踩(预设标签降低操作成本)。
  • 隐式反馈:用户行为(例如从多张 AI 生成图中选择哪一张)。

所有 Agent 发布前必须通过评测验证。

五、测试开发在 AI 项目中的具体工作示例

作为测试开发工程师,你在 AI 项目中绝不是“旁观者”,而是 质量体系的架构师。以下是你可以直接落地的示例:

5.1 构建 AI 测试的评测集与裁判模型

  • 工作:针对 Test Agent(如用例生成、无参考测试),人工标注 200 条“好/坏”输出,定义评分维度(如步骤完整性、断言合理性、幻觉程度)。
  • 产出:种子评测集 + 裁判模型的 Prompt(含 CoT 示例)。
  • 效果:让 AI 自测,快速迭代提示词和微调数据。

5.2 开发 AI 增强录制的辅助工具

  • 工作:编写 DOM 裁切脚本(过滤 script、style、敏感信息),增加交互区域标注的注入逻辑。调试不同多模态模型(Qwen-VL、GPT-4o、UI-TARS)的识别差异。
  • 产出:录制增强服务,输出标准化自然语言步骤。
  • 效果:准确率从 70% 提升至 89%,录制步骤可回放、可维护。

5.3 搭建 AI 归因归类的流水线

  • 工作:设计失败用例的预处理流程(图片切片、步骤拆分),编写并发调用归因 Agent 的代码,实现总结 Agent 和归类 Agent 的串联。
  • 产出:归因归类服务,每天自动处理数千条失败用例。
  • 效果:测试人员从“看日志”转向“验证归因结果”,效率提升 10 倍以上。

5.4 设计 Agent 的 HITL 监督面板

  • 工作:开发多维表格的同步脚本,拉取 Agent 对话日志,计算交付率、平均修正轮次、Token 消耗等指标,并自动标记异常会话。
  • 产出:管理者仪表盘 + 开发者的飞书审核机器人。
  • 效果:及时发现 Agent 的“偏航”行为,并沉淀为 Badcase 加入评测集。

5.5 主导 AI + 自动化测试的融合框架

  • 工作:设计“程序优先 + AI 兜底 + 自愈更新”的执行引擎。当 AI 兜底成功后,自动生成可更新的程序定位符(如增强的 CSS 选择器)。
  • 产出:混合执行框架,同时支持传统脚本和自然语言步骤。
  • 效果:既有程序的毫秒级速度,又有 AI 的鲁棒性。

六、AI 落地的关键经验

  1. 区分创造性与执行性:现阶段 LLM 擅长执行性工作(如翻译型任务、回归测试)。
  2. 从单点突破开始:先拿小需求验证,积累数据和记忆。
  3. 人机协作不是口号:设计好监督界面、知识外化路径、责任归属(人敢用)。
  4. 私有化基建:知识库、工具链、记忆系统——这些才是壁垒。
  5. 基于评测迭代:不要先写方案再开发,而是用测试集驱动上下文工程。
  6. 分阶段落地:AI 增强 → AI 驱动 → AI 自主,切忌一蹴而就。

七、全景展望

某电商企业已经在研发全流程落地 AI:

  • 设计:Agent 解析需求、生成技术方案
  • 编码:多 Agent 协同完成跨仓库改动
  • 测试:自然语言用例 + AI 执行 + 归因修复
  • 运维:对话式发布
  • 贯穿:Agent 评测体系持续反馈

AI 不会取代你,但会用 AI 的同行会。测试开发的新价值,在于定义质量边界、构建评测体系、设计人机协作流程。从现在开始,动手构建你的第一个 Test Agent 吧!


本文根据某电商企业 AI 研发全流程落地实践整理,已脱敏。