一、背景与目标
1.1 问题背景
我在公司负责研发团队的内建质量和研发效率有两年了,非常痛苦!
质量和投入本身就是跷跷板两头玩平衡,定规则,定指标,到执行的时候总会打折扣,而且折扣还不小。提效又是在跟质量玩博弈,想要让开发少干点,质量又得不到保障,比如自测。。。然后想搞点自动化吧,大的想法投入很大得不到支持,小的工具杯水车薪又少有人积极使用,到后来就束之高阁了。
今年我准备搞个大的,带着我的AI陈家班来深入研发场景,来场研发习惯的“南昌起义”。
经过25年的质量复盘数据积累,我们发现软件研发过程中存在一些持续性的质量问题,这些问题直接影响研发效率和产品质量。通过对历史质量数据的深入分析,识别出以下关键薄弱环节:
根据质量中心给的数据,研发团队质量归因占比最大的3项
- 自测用例缺失:开发人员缺乏系统性的自测意识和方法,导致缺陷在早期阶段未被发现
- 代码编码错误:编码规范执行不到位,常见错误反复出现
- 详细设计错误:设计不满足需求,设计本身存在缺陷
1.2 核心目标
通过深入软件研发场景,构建针对性的AI工具并深度应用,实现以下目标:
- 改善质量数据:显著降低质量事故发生
- 提升研发效率:通过AI工具辅助,减少重复性工作,提高开发效率
- 建立可量化评估体系:通过纵向和横向对比,验证AI工具应用效果
二、方法论:场景驱动 + 结对开发 + 深度应用
2.1 场景驱动的需求挖掘
核心理念:不是为AI而AI,而是从实际工作场景出发,挖掘AI工具的真实价值点。
实施步骤:
- 数据驱动识别:基于25年质量复盘数据,识别高频、高影响的质量问题
- 场景深度调研:深入开发团队一线,观察和记录实际工作流程中的痛点
- 需求提炼:将质量数据中的"问题项"转化为具体的"工作场景需求"
- 优先级排序:根据影响范围和实施难度,确定AI工具开发优先级
2.2 结对开发模式
工作方式:
- 结对对象:我与开发团队共同参与
- 角色分工:
- 我:负责需求分析、场景挖掘、AI工具的技术实现、效果评估
- 开发团队:负责在日常工作中深度使用AI工具来改造原先的使用习惯,反馈问题
2.3 深度应用策略
核心理念:不是浅尝辄止的工具试用,而是深度改造现有工作方式。
实施要点:
- 工作流嵌入:将AI工具深度嵌入到日常开发流程中,而非独立使用
- 习惯养成:通过培训、引导和监督,帮助开发人员形成新的工作习惯
- 持续优化:根据使用反馈,持续迭代工具功能和体验
三、AI工具开发计划
3.1 工具一:基于OpenSpec+ClaudeCode的智能设计助手
问题场景:
- 详细设计错误是质量归因占比最大的问题之一
- 设计不满足需求,设计本身存在缺陷
- 开发过程中缺乏规范化的设计流程,设计环节容易被跳过或流于形式
解决方案: 工具一:基于OpenSpec+ClaudeCode的使用模式,通过流程固化强制引入设计环节,实现人工协同AI完成高质量设计。
核心功能:
- 流程固化:固定"需求分析 → 设计 → 任务拆解 → 开发实现"的标准流程
- 强制设计:在开发实现前,强制要求完成设计文档,AI辅助进行设计评审
- 协同设计:人工与AI协同工作,AI提供设计建议、识别设计缺陷、检查设计完整性
- 质量保障:基于编码规范和最佳实践,对设计方案进行多维度检查
预期效果:
- 详细设计错误率显著降低
- 设计文档完整性和规范性提升
- 通过前置设计环节,减少后期返工和缺陷
3.2 工具二:基于ClaudeCode的代码审查助手
问题场景:
- 代码编码错误是质量归因占比最大的问题之一
- 编码规范执行不到位,常见编码错误反复出现
- 代码审查耗时且容易遗漏,人工审查效率有限
解决方案: 引入基于ClaudeCode的代码审查助手,一键执行本地代码审核,基于编码规范和逻辑分析发现潜在风险。
核心功能:
- 一键审查:在本地开发环境中一键触发代码审查,无需提交到远程仓库
- 规范检查:基于团队编码规范,自动识别规范违反和常见编码错误
- 逻辑分析:深入分析代码逻辑,识别潜在的业务逻辑错误、边界条件遗漏、异常处理不当等问题
- 修复建议:提供具体的修复建议和最佳实践示例
预期效果:
- 编码错误率显著降低
- 代码审查效率大幅提升,减少人工审查时间
- 早期发现潜在风险,降低缺陷漏出率
3.3 工具三:智能自测用例生成助手
问题场景:
- 自测用例缺失是质量归因占比最大的问题之一
- 开发人员编写代码后,缺乏系统性的自测思路
- 自测用例编写耗时,且覆盖不全面,导致缺陷在早期阶段未被发现
解决方案: 引入智能自测用例生成助手,自动生成保质保量的测试用例,并在提测时作为交付物体现。
核心功能:
- 自动生成:基于代码变更和业务逻辑,自动生成全面的测试用例
- 场景覆盖:识别关键业务逻辑、边界条件、异常场景,确保测试覆盖度
- 用例质量:生成结构清晰、描述准确的测试用例,包含测试步骤、预期结果等
- 提测交付:将生成的测试用例作为提测交付物,在提测流程中强制要求
- 覆盖度分析:提供测试场景覆盖度分析报告,识别测试盲区
预期效果:
- 自测用例覆盖率显著提升
- 早期缺陷发现率提升,减少缺陷漏出
- 提测质量提升,减少测试阶段返工
3.4 工具四:AI驱动的Bug分析与处理助手
问题场景:
- Bug处理效率低,日志梳理耗时,根因分析困难
- Bug reopen率高,根因分析不准确
- Jira中根因和解决对策填写不规范,影响后续问题追踪和经验沉淀
- 踢皮球情况严重,在没有提供本模块有效分析信息时往下流转
解决方案: 引入AI一手分析、人工审核的模式,大幅提升Bug处理流转效率和处理质量。
核心功能:
- 日志分析:AI自动梳理和分析Bug日志,提取关键信息和错误堆栈
- 根因分析:结合源码分析,AI给出根因分析建议,人工进行审核确认
- 解决方案生成:基于根因分析,结合源码上下文,AI提供解决方案建议
- Jira集成:自动生成Jira根因和解决对策的填写内容,确保格式规范、信息完整
- 知识沉淀:将根因分析和解决方案沉淀为知识库,供后续参考
预期效果:
- Bug处理效率大幅提升,减少日志梳理和根因分析时间
- Bug reopen率显著降低
- Jira根因和解决对策填写规范性提升,便于问题追踪和经验复用
- 通过AI辅助,提升根因分析的准确性和深度
四、考核指标体系
4.1 数据收集说明
数据来源:
- Jira/Bug管理系统:Bug相关数据
- 代码仓库:代码提交、审查数据
- 提测系统:自测用例、提测数据
统计周期:按月统计,对比工具应用前后的数据变化
统计单位:按开发组为单位进行统计
4.2 核心考核指标定义
4.2.1 质量指标
-
Bug人均密度
- 定义:Bug总数 / 开发组人数
- 统计方式:按月统计,计算平均值
-
自测问题漏出率
- 定义:通过Bug抽样复盘确认的自测漏出Bug数 / 抽样Bug总数 × 100%
- 统计方式:
- 定期对测试阶段发现的Bug进行抽样(如每月抽样一定数量)
- 通过复盘方式,分析每个Bug是否应该在自测阶段被发现
- 确认属于自测漏出的Bug数量
- 计算漏出比例
-
Bug reopen率
- 定义:reopen的Bug数 / 总Bug数 × 100%
- 统计方式:统计Bug状态变化,识别reopen的Bug
-
编码错误导致的Bug占比
- 定义:根因归类为"编码错误"的Bug数 / 总Bug数 × 100%
- 统计方式:基于Jira中的根因分类统计
-
设计错误导致的Bug占比
- 定义:根因归类为"详细设计错误"的Bug数 / 总Bug数 × 100%
- 统计方式:基于Jira中的根因分类统计
-
自测用例质量合格率
- 定义:通过抽样检查,自测用例质量合格的提测数 / 抽样提测总数 × 100%
- 统计方式:
- 定期对提测进行抽样(如每月抽样一定数量)
- 检查自测用例是否规范(格式、描述清晰度等)
- 检查自测用例是否能够覆盖本次提交内容(功能点、边界条件等)
- 确认质量合格的提测数量,计算合格率
- 补充说明:自测用例质量也可以通过"自测问题漏出率"指标来侧面体现,漏出率越低说明自测质量越高
-
Bug根因填写完整率
- 定义:通过抽样检查,根因和解决对策填写完整的Bug数 / 抽样Bug总数 × 100%
- 统计方式:
- 定期对该组处理的Bug进行抽样(如每月抽样一定数量)
- 在Jira上检查抽样Bug的根因和解决对策字段是否完整填写
- 确认填写完整的Bug数量,计算完整率
4.2.2 效率指标
- Bug处理人均时间
- 定义:所有Bug在该组内停留的总时长(小时)/ 开发组人数 / Bug总数
- 统计方式:统计Bug从创建到关闭(或转出)的时间,按组内停留时间计算
4.3 纵向对比(开发组自身前后对比)
对比方式:工具应用前3个月 vs 工具应用后3个月(或更长时间)
对比指标:上述所有核心考核指标
预期变化方向:
- 质量指标:Bug人均密度、自测问题漏出率、Bug reopen率、编码错误Bug占比、设计错误Bug占比 → 显著降低;自测用例质量合格率、Bug根因填写完整率 → 显著提升
- 效率指标:Bug处理人均时间 → 显著降低
4.4 横向对比(与其他开发组对比)
对比方式:应用AI工具的开发组 vs 未应用的开发组(同期数据对比)
对比指标:上述所有核心考核指标
对比维度:
- 质量对比:Bug人均密度、自测问题漏出率、Bug reopen率、编码错误Bug占比、设计错误Bug占比、自测用例质量合格率、Bug根因填写完整率
- 效率对比:Bug处理人均时间
预期结果:应用AI工具的开发组在各项指标上均优于未应用的开发组
4.4 经验访谈与主观感受评估
目的:通过定性的访谈和问卷,了解开发人员的主观感受和工作方式变化,补充定量数据的不足。
4.4.1 访谈对象
- 开发组全体成员(或抽样访谈)
4.4.2 访谈时机
- 应用前访谈:了解当前工作方式和痛点
- 应用后访谈:工具应用3个月后,了解变化和感受
4.4.3 访谈问题设计
一、工作方式变化
- 在使用AI工具前后,您的工作流程有什么明显变化?
- 哪些工具对您的工作方式改变最大?为什么?
- 您是否已经形成了使用AI工具的新习惯?具体体现在哪些方面?
二、效率感受
- 使用AI工具后,您感觉哪些工作环节的效率有明显提升?
- 哪些工作环节的效率提升最明显?能估算一下大概提升了多少吗?
- 有没有哪些环节因为使用AI工具反而变慢了?原因是什么?
三、质量感受
- 使用AI工具后,您感觉代码质量有什么变化?
- 在Bug处理方面,使用AI工具前后有什么不同感受?
- 您认为AI工具在提升质量方面发挥了什么作用?
四、工具使用体验
- 您最常用的AI工具是哪个?使用频率如何?
- AI工具给出的建议,您一般会采纳多少?为什么?
- 您觉得AI工具还有哪些不足或需要改进的地方?
五、整体评价
- 如果让您回到没有AI工具的时候,您愿意吗?为什么?
- 您会向其他同事推荐使用这些AI工具吗?
- 您认为AI工具对团队整体有什么影响?
4.4.4 问卷设计(5分制评分)
问卷说明:请根据您的实际使用体验,对以下问题进行评分(1-5分,1分表示非常不同意,5分表示非常同意)
A. 工具易用性
- AI工具易于学习和使用
- AI工具集成到工作流程中很顺畅
- AI工具的操作界面友好
B. 工具有效性
- AI工具能够有效提升我的工作效率
- AI工具能够帮助我发现更多问题
- AI工具给出的建议准确且有用
C. 工作方式改变
- 使用AI工具后,我的工作方式发生了积极改变
- 我已经习惯使用AI工具辅助工作
- AI工具已经成为我工作中不可或缺的一部分
D. 质量提升感受
- 使用AI工具后,我感觉代码质量有所提升
- 使用AI工具后,Bug处理效率明显提升
- 使用AI工具后,我对自己的工作更有信心
E. 整体满意度
- 我对AI工具的整体使用体验满意
- 我愿意继续使用这些AI工具
- 我建议团队继续推广使用AI工具
F. 开放性问题
- 您认为AI工具最大的价值是什么?
- 您认为AI工具最大的不足是什么?
- 您对AI工具的改进有什么建议?
4.4.5 访谈结果分析维度
- 工作方式转变:是否形成了新的工作习惯
- 效率提升感知:主观感受到的效率变化
- 质量提升感知:主观感受到的质量变化
- 工具接受度:对工具的接受程度和使用意愿
- 改进建议:收集到的改进建议和反馈
五、实施计划与时间表
5.1 第一阶段:需求分析与工具设计(2026.1,农历新年前)
- 完成质量数据深度分析
- 完成工作场景调研
- 确定AI工具开发需求和优先级
- 完成工具设计方案
5.2 第二阶段:工具开发与实现(2026.1,农历新年前)
- 完成所有AI工具的开发实现
- 完成工具功能测试和验证
- 完成工具部署和配置
5.3 第三阶段:深度应用与数据收集(农历新年后第一期,2-3个月)
- 工具全面推广到目标开发组
- 建立数据收集机制
- 持续监控工具使用情况
- 收集使用反馈,持续优化工具
5.4 第四阶段:效果评估(每月一次,从第三阶段开始后)
评估频率:每月进行一次效果评估
评估内容:
- 完成纵向对比分析(工具应用前后对比)
- 完成横向对比分析(应用组 vs 未应用组)
- 完成经验访谈和问卷调研
- 分析各项考核指标的变化趋势
- 总结阶段性经验和改进方向
- 制定后续优化计划
六、风险与应对
6.1 潜在风险
- 工具接受度风险:开发人员可能对AI工具存在抵触情绪
- 数据质量风险:历史质量数据可能存在不完整或不准确的情况
- 效果评估风险:其他因素可能影响对比结果的准确性
七、预期成果
通过本方案的实施,预期实现:
- 质量提升:关键质量指标显著改善
- 效率提升:研发效率提升 30%
- 经验沉淀:形成一套可复制的AI工具应用方法论
- 习惯改变:推动开发团队使用AI工具人传人现象,提升工具使用普及率
作者简介: 多年Android系统开发经验,同时持续在研发流程、质量、效能管理,AI提效有大量的思考和实践