可落地、可直接对接研发流程、可用于生产环境的企业级平台架构方案,专门解决:
- AI 生成代码的质量检测(正确性、规范、安全、性能)
- Prompt 优化的效果度量(准确率、召回率、稳定性)
- 全流程自动回归(改 Prompt / 改模型 / 改工具 → 自动跑评测)
- 不依赖真实模型 / 外部服务,离线稳定回归
一、平台定位
企业级 AI 研发质量网关所有 AI 生成代码、Prompt 优化、Agent 逻辑变更,必须经过本平台评测通过,才能合并 / 上线。
二、核心架构(4 层 + 1 门户)
整体架构图(文字版)
plaintext
[ 前端管控门户 ] → 配置用例 / 看报告 / 审批上线
↓
[ 调度与任务层 ] → 触发评测、并发管理、CI/CD 对接
↓
[ 核心评测引擎 ] → 代码检测 + Prompt 效果检测 + 回归对比
↓
[ 模拟与隔离层 ] → Mock 模型 / Mock 工具 / 离线数据集
↓
[ 存储与基线层 ] → 用例集、历史基线、版本对比、报表
四层详细设计
第一层:存储与基线层(数据底座)
核心存储
-
离线用例库(企业级用例集)
- 按场景分类:代码生成、接口调用、问答、工具调用
- 每条用例:输入 + 期望输出 + 评分规则
- 支持版本管理(Git 化)
-
基线库(Benchmark)
- 每个版本保存:成功率、耗时、错误率、代码质量分
- 新提交必须不低于基线才能通过
-
Prompt 版本库
- 全量历史 Prompt 自动存档
- 每次修改自动触发评测
-
AI 生成代码样本库
- 生成代码 + 标注结果(正确 / 错误 / 不合格)
- 用于训练评测规则与回归
第二层:模拟与隔离层(离线稳定关键)
企业级必须做到:评测不调真实模型!
核心模块
-
LLM Mock 服务
- 固定返回:结构化 JSON / 代码片段 / 工具调用格式
- 支持:正常返回、异常返回、超时模拟
- 作用:保证评测100% 稳定可复现
-
工具调用 Mock(Tool Mock)
- 模拟数据库、API、外部服务
- 校验:是否调用正确工具 + 正确参数
-
执行沙箱(Sandbox)
- 安全运行 AI 生成的代码
- 不影响生产环境
第三层:核心评测引擎(平台大脑)
分为两大评测引擎:
A. AI 生成代码质量评测引擎
检测 6 大维度:
- 语法正确性
- 编译 / 运行通过
- 功能正确性(单元测试通过率)
- 编码规范(ESLint、格式、命名)
- 安全检测(SQL 注入、XSS、密钥硬编码)
- 性能与复杂度(圈复杂度、冗余代码)
输出:代码质量分 0~100
B. Prompt 质量评测引擎
检测 5 大维度:
- 工具调用准确率(是否该调用、调用对不对)
- 输出结构化率(JSON 合规、字段完整)
- 追问准确率(信息不足是否正确反问)
- 稳定性(相同输入 → 相同输出)
- 业务指标(关键字段命中、业务规则符合)
输出:Prompt 效果分 0~100
C. 自动回归引擎
-
基准对比
- 新版本 vs 上一版本
- 成功率下降 → 自动拦截
-
全量回归
- 改 1 行 Prompt → 自动跑 1000+ 用例
-
失败自动定位
- 哪个用例失败
- 是代码问题?Prompt 问题?工具调用问题?
第四层:调度与任务层
-
触发方式
- Git 提交自动触发
- Prompt 保存自动触发
- 定时评测(夜间全量回归)
- 手动触发
-
CI/CD 对接
- 与 GitLab CI / Jenkins / GitHub Action 打通
- 不通过 → 禁止合并代码
第五层:前端管控门户(运营使用)
提供 4 大功能:
- 用例管理:创建 / 编辑 / 导入离线用例
- 评测报告:实时看分数、趋势图、失败详情
- 基线管理:设置通过阈值、质量门禁
- 对比工具:两个 Prompt 版本效果对比
三、平台核心流程(企业级标准流程)
1. 提交 / 变更
- 研发修改 Prompt
- 或 AI 生成一批新代码
- 提交到 Git
2. 自动触发评测
平台自动拉取:
- 最新用例集
- 最新基线
- 启动 Mock 环境
3. 双引擎并行评测
- 代码质量检测
- Prompt 效果检测
4. 对比基线
- 分数下降 → 拦截
- 全部通过 → 允许上线
5. 生成报告
- 质量总分
- 失败用例清单
- 优化建议
- 可追溯版本记录
四、关键技术选型(企业级)
-
前端:React / Vue
-
后端:Node.js/ Java / Python
-
评测引擎:
- 代码检测:ESLint, SonarQube, Jest
- Prompt 评测:自定义规则引擎
-
存储:MySQL + Redis + MinIO
-
模拟服务:FastMock / Nock / 自定义 MockLLM
-
CI/CD:GitLab CI
五、最核心亮点(企业必备)
- 全离线评测:不调用真实 LLM,成本极低、极稳定
- 质量门禁:不达标的代码 / Prompt 无法上线
- 可度量迭代:每次优化都有数据证明变好
- 自动回归:防止改坏历史功能
- 全链路追踪:Prompt 版本 → 生成代码 → 质量分数 → 上线状态
- 多人协作:统一用例、统一标准、统一基线