AI 重塑研发全流程：从 Coding 到 Test，测试开发如何不掉队？一场由大模型驱动的研发变革正在发生，AI 不再

一场由大模型驱动的研发变革正在发生，AI 不再只是代码补全工具，而是能独立完成需求、测试、发布的“数字员工”。本文结合某电商企业的落地实践，带你了解 AI Coding、AI Test 的全景，并聚焦测试开发在 AI 项目中的新角色。

一、AI 编程，为什么突然火了？

2025 年被称为 AI 应用元年，编程领域的变化尤为剧烈：

工具爆发：从 GitHub Copilot（2000 万用户）到 Cursor（230 万用户），再到 Claude Code（3 个月增长 10 倍），AI 编程工具已经全面铺开。
收入惊人：Copilot 年收入超 3 亿美元，Cursor 和 Claude Code 均超 5 亿美元。
门槛降低：氛围编程 兴起，产品经理甚至能用自然语言直接交付可交互的原型。

但在企业级软件工程中，AI 落地远非“让 AI 写几段代码”那么简单。大规模、高复杂、多协作、私有化——这四大特点，让 AI 必须与现有研发体系深度融合。

二、AI Coding：从个人助手到规模协同

2.1 路线选择：以 Agent 为主，人监督

过去的人主导、AI 辅助模式存在信息传递低效、经验无法复用、规模化困难等问题。因此，某电商企业选择了 以 Agent 为主，人监督 的路线，像搭建一个开发团队一样构建 Coding Agent。

2.2 核心架构

一个专业的 Coding Agent 需要具备：

垂直编程大模型（如 Claude Code 底座）
上下文工程（引入企业规范、约束）
长期记忆（将开发者的纠偏沉淀为经验）
内部知识库（业务术语、技术选型、工程现状）
工具链集成（通过 MCP 对接需求平台、Git、飞书等）
云端沙箱（每个会话独立、无状态、可水平扩容）
多 Agent 协同（按流程拆分：需求解析、代码定位、方案生成、编码、审查）

2.3 长期记忆：让 Agent 越用越聪明

AI 刚接入时效果并不好，因为大量经验藏在开发者脑中。为此，团队打造了长期记忆系统：

提取开发者的纠偏对话 → 自然语言+标签存储 → 向量检索召回 → 定期遗忘/泛化。
效果：同类任务从需要 5~~10 轮修正降低到 1~~3 轮。

2.4 人工监督（HITL）

面向开发者：通过飞书 IM + 文档 + GitLab，在每个阶段（需求清单、方案、代码、效果）审核和修正。
面向管理者：多维表格仪表盘，监控交付率、对话轮次、Token 消耗等。

2.5 落地成果

已交付近百个需求，综合提效 30%（含人工监督耗时）。
单个需求 Token 费用不足 100 元人民币。
典型场景：翻译型任务（如基础库升级，50 人日 → 几十分钟）、跨域编程（学习成本几乎抹平）。

📱 一个有趣的插曲：开发同学外出聚餐没带电脑，用手机飞书唤醒 Agent，描述 Bug，Agent 改完并发布，全程只花了几分钟。

三、AI Test：从自动化到智能化

传统自动化测试面临编写门槛高、维护成本高、失败排查难等问题。AI 时代编码效率提升，测试必须更快、更智能。

3.1 AI 用例标准化

历史用例质量参差不齐，导致 GIGO（垃圾进，垃圾出） 。解决方案是：

自然语言用例：兼具语义性和可执行性。
存量优化：LLM 生成规范名称、补充断言。
增量生成：结合业务知识库 + 参考历史用例。

3.2 AI 增强录制

传统录制步骤冗余、定位不准。新方案：

用户操作时，同时录制 DOM + 截图 → 多模态 LLM 分析 → 生成自然语言步骤。
通过 DOM 裁切（降低 99% Token）、交互区域标注、父级元素标注，准确率从 70% 提升至 89%。
耗时 5~10 秒，跨平台（Web、App、小程序、鸿蒙等）。

3.3 AI 用例执行

任务中心统一调度，每天执行超 10 万次，成功率 96%。
提速策略：优先程序执行，失败时 AI 兜底，成功后 AI 自愈更新脚本。
模型选型：UI-TARS-1.5 在元素定位精度和移动端表现最佳。

3.4 AI 无参考测试

不需要预期结果，让 LLM 自主判断页面是否异常。为此引入监督微调（LoRA） ：

构建思维链微调数据（Instruction + Input + Output + 内部知识 + 分析过程）。
正负样本比例 1:3，避免模型“总是发现问题”。
目前垂直模型正在微调中。

3.5 AI 归因归类与修复

归因归类：100 条失败用例从人工 15 分钟 → AI 1 分钟，准确率 85%。
自动修复：针对像素波动、非核心元素变化，准确率 60%，人工确认后可一键修复。

四、Agent 评测：从炫酷到生产可用

Agent 开发完 ≠ 可以上线。传统软件测试有确定预期，Agent 的输出是开放、不确定的，必须建立评测体系。

4.1 评测集

类型：有参考 / 无参考 / 参考资料。
构造：人工标注 50~100 条种子 → LLM 泛化 → 线上采样补充 Badcase。
划分：种子集、Badcase 集、扩展集、对抗集、场景集。

4.2 评测器

初期人工评测，后期自动化（裁判模型）。
评分归一化：0~5 分，兼顾可解释性与区分度。
加入 CoT（思维链） 提升可解释性和一致性。

4.3 评测指标

效果指标：准确率、召回率、任务完成率。
技术指标：Token 消耗、延迟。
用户指标：点赞率、纠偏率。
裁判模型自身指标：人工一致性、评分方差、异常打分率。

4.4 反馈系统

显式反馈：点赞/点踩（预设标签降低操作成本）。
隐式反馈：用户行为（例如从多张 AI 生成图中选择哪一张）。

所有 Agent 发布前必须通过评测验证。

五、测试开发在 AI 项目中的具体工作示例

作为测试开发工程师，你在 AI 项目中绝不是“旁观者”，而是 质量体系的架构师。以下是你可以直接落地的示例：

5.1 构建 AI 测试的评测集与裁判模型

工作：针对 Test Agent（如用例生成、无参考测试），人工标注 200 条“好/坏”输出，定义评分维度（如步骤完整性、断言合理性、幻觉程度）。
产出：种子评测集 + 裁判模型的 Prompt（含 CoT 示例）。
效果：让 AI 自测，快速迭代提示词和微调数据。

5.2 开发 AI 增强录制的辅助工具

工作：编写 DOM 裁切脚本（过滤 script、style、敏感信息），增加交互区域标注的注入逻辑。调试不同多模态模型（Qwen-VL、GPT-4o、UI-TARS）的识别差异。
产出：录制增强服务，输出标准化自然语言步骤。
效果：准确率从 70% 提升至 89%，录制步骤可回放、可维护。

5.3 搭建 AI 归因归类的流水线

工作：设计失败用例的预处理流程（图片切片、步骤拆分），编写并发调用归因 Agent 的代码，实现总结 Agent 和归类 Agent 的串联。
产出：归因归类服务，每天自动处理数千条失败用例。
效果：测试人员从“看日志”转向“验证归因结果”，效率提升 10 倍以上。

5.4 设计 Agent 的 HITL 监督面板

工作：开发多维表格的同步脚本，拉取 Agent 对话日志，计算交付率、平均修正轮次、Token 消耗等指标，并自动标记异常会话。
产出：管理者仪表盘 + 开发者的飞书审核机器人。
效果：及时发现 Agent 的“偏航”行为，并沉淀为 Badcase 加入评测集。

5.5 主导 AI + 自动化测试的融合框架

工作：设计“程序优先 + AI 兜底 + 自愈更新”的执行引擎。当 AI 兜底成功后，自动生成可更新的程序定位符（如增强的 CSS 选择器）。
产出：混合执行框架，同时支持传统脚本和自然语言步骤。
效果：既有程序的毫秒级速度，又有 AI 的鲁棒性。

六、AI 落地的关键经验

区分创造性与执行性：现阶段 LLM 擅长执行性工作（如翻译型任务、回归测试）。
从单点突破开始：先拿小需求验证，积累数据和记忆。
人机协作不是口号：设计好监督界面、知识外化路径、责任归属（人敢用）。
私有化基建：知识库、工具链、记忆系统——这些才是壁垒。
基于评测迭代：不要先写方案再开发，而是用测试集驱动上下文工程。
分阶段落地：AI 增强 → AI 驱动 → AI 自主，切忌一蹴而就。

七、全景展望

某电商企业已经在研发全流程落地 AI：

设计：Agent 解析需求、生成技术方案
编码：多 Agent 协同完成跨仓库改动
测试：自然语言用例 + AI 执行 + 归因修复
运维：对话式发布
贯穿：Agent 评测体系持续反馈

AI 不会取代你，但会用 AI 的同行会。测试开发的新价值，在于定义质量边界、构建评测体系、设计人机协作流程。从现在开始，动手构建你的第一个 Test Agent 吧！

本文根据某电商企业 AI 研发全流程落地实践整理，已脱敏。