二十一、Harness Engineering 的边界：什么应该由人决定，什么应该交给 Agent？一、引言：边界的重要

一、引言：边界的重要性

当 AI Agent 能够编写代码、修复 Bug、甚至设计架构时，一个根本性的问题浮现出来：

我们应该让 AI 做到什么程度？边界在哪里？

边界过宽，可能导致失控、质量下降、甚至伦理风险。边界过窄，又无法发挥 AI 的潜力。

找到这个边界，是 Harness Engineering 成功的关键。本文将探讨人机协作的边界问题。

二、边界的维度分析

2.1 四个关键维度

┌─────────────────────────────────────────────────────────┐
│              人机边界的四个维度                          │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  维度 1：任务复杂度                                        │
│  简单 ───────────────────────────────────────→ 复杂      │
│  代码补全    函数生成    模块开发    系统设计    架构决策  │
│   ↑                        ↑                  ↑         │
│  Agent                    协作                人类        │
│                                                         │
│  维度 2：风险等级                                          │
│  低风险 ─────────────────────────────────────→ 高风险      │
│  工具函数    业务逻辑    核心算法    安全模块    金融交易  │
│   ↑                        ↑                  ↑         │
│  Agent                    协作                人类        │
│                                                         │
│  维度 3：创造性需求                                        │
│  常规 ───────────────────────────────────────→ 创新      │
│  CRUD      业务流程    交互设计    技术突破    颠覆创新   │
│   ↑                        ↑                  ↑         │
│  Agent                    协作                人类        │
│                                                         │
│  维度 4：伦理敏感性                                        │
│  中性 ───────────────────────────────────────→ 敏感      │
│  内部工具    用户界面    推荐算法    隐私数据    生命决策  │
│   ↑                        ↑                  ↑         │
│  Agent                    协作                人类        │
│                                                         │
└─────────────────────────────────────────────────────────┘

2.2 边界决策矩阵

场景

复杂度

风险

创造性

伦理

建议

日志工具函数

低

中性

Agent 自主

API 接口开发

中

低

中性

Agent 主导，人类审查

用户认证系统

中

高

低

敏感

人类主导，Agent 辅助

推荐算法

高

中

敏感

人类设计，Agent 实现

新产品架构

高

中性

人类主导，Agent 验证

医疗诊断系统

高

极高

高

极敏感

人类决策，Agent 辅助

三、应该交给 Agent 的任务

3.1 适合 Agent 的特征

┌─────────────────────────────────────────────────────────┐
│              适合 Agent 的任务特征                       │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  ✓ 明确的目标和验收标准                                    │
│    └── "实现一个计算斐波那契数列的函数"                   │
│                                                         │
│  ✓ 有限的上下文和依赖                                      │
│    └── 修改范围可控，影响面清晰                           │
│                                                         │
│  ✓ 可自动验证的结果                                        │
│    └── 有测试用例可以验证正确性                           │
│                                                         │
│  ✓ 重复性高、模式化                                        │
│    └── CRUD、数据转换、模板代码                           │
│                                                         │
│  ✓ 容错性高，可回滚                                        │
│    └── 失败影响小，可快速恢复                             │
│                                                         │
│  ✓ 有大量历史示例                                          │
│    └── 代码库中有类似实现可供参考                         │
│                                                         │
└─────────────────────────────────────────────────────────┘

3.2 Agent 擅长的具体任务

类别

具体任务

自动化程度

代码生成

工具函数、数据模型、API 接口

90%+

测试生成

单元测试、边界条件、Mock 数据

85%+

代码重构

变量重命名、函数提取、格式调整

95%+

文档生成

API 文档、代码注释、使用示例

80%+

Bug 修复

常见错误、安全漏洞、性能问题

70%+

依赖更新

版本升级、兼容性修复

75%+

四、应该由人类决定的任务

4.1 必须人类主导的特征

┌─────────────────────────────────────────────────────────┐
│              必须人类主导的任务特征                      │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  ✗ 涉及重大商业决策                                        │
│    └── "是否应该进入这个市场？"                           │
│                                                         │
│  ✗ 影响用户权益和隐私                                       │
│    └── "如何收集和使用用户数据？"                         │
│                                                         │
│  ✗ 存在伦理和社会影响                                       │
│    └── "算法是否会造成歧视？"                             │
│                                                         │
│  ✗ 需要创造性突破                                          │
│    └── "如何设计下一代产品架构？"                         │
│                                                         │
│  ✗ 后果不可逆或难以挽回                                     │
│    └── "数据库迁移策略"                                   │
│                                                         │
│  ✗ 涉及多方利益协调                                        │
│    └── "团队资源分配"                                     │
│                                                         │
└─────────────────────────────────────────────────────────┘

4.2 人类必须主导的具体场景

场景

原因

人类角色

架构设计

影响长期发展，需要权衡多方因素

设计决策

技术选型

影响团队能力栈，有长期绑定效应

评估选择

安全策略

涉及风险承担，需要责任主体

制定审核

数据治理

涉及合规和伦理，需要人类判断

规则制定

产品方向

涉及用户需求理解，需要洞察力

需求定义

危机处理

需要快速综合判断，担责决策

指挥协调

五、协作区域：人机共同决策

5.1 协作的最佳模式

┌─────────────────────────────────────────────────────────┐
│              人机协作的四种模式                          │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  模式 1：人类决策，Agent 执行                              │
│  ┌─────────────────────────────────────────────────┐   │
│  │  人类：确定技术方案、接口设计、算法选择              │   │
│  │  Agent：编写实现代码、生成测试、编写文档             │   │
│  │  适用：中等复杂度任务，方案明确                       │   │
│  └─────────────────────────────────────────────────┘   │
│                                                         │
│  模式 2：Agent 建议，人类决策                              │
│  ┌─────────────────────────────────────────────────┐   │
│  │  Agent：生成多个方案，分析优缺点                     │   │
│  │  人类：评估选择，确定最终方案                        │   │
│  │  适用：需要创造性或权衡的决策                         │   │
│  └─────────────────────────────────────────────────┘   │
│                                                         │
│  模式 3：迭代协作                                        │
│  ┌─────────────────────────────────────────────────┐   │
│  │  人类：提出初步想法                                  │   │
│  │  Agent：扩展完善，生成原型                           │   │
│  │  人类：评审反馈，指出问题                            │   │
│  │  Agent：修改优化                                     │   │
│  │  ... 多轮迭代 ...                                    │   │
│  │  适用：探索性、创新性任务                             │   │
│  └─────────────────────────────────────────────────┘   │
│                                                         │
│  模式 4：监督执行                                        │
│  ┌─────────────────────────────────────────────────┐   │
│  │  Agent：自主执行，实时汇报进度                       │   │
│  │  人类：监控关键节点，必要时介入                       │   │
│  │  Agent：遇到边界情况请求指导                         │   │
│  │  适用：长时运行任务，需要持续监督                     │   │
│  └─────────────────────────────────────────────────┘   │
│                                                         │
└─────────────────────────────────────────────────────────┘

5.2 协作中的责任划分

责任

人类

Agent

说明

目标设定

✅

❌

人类确定要做什么

方案选择

✅

建议

人类最终决策

执行实现

监督

✅

Agent 具体执行

质量验证

抽查

✅

Agent 自动验证

结果承担

✅

❌

人类承担最终责任

持续改进

✅

共同优化

六、边界的动态调整

6.1 信任的建立过程

┌─────────────────────────────────────────────────────────┐
│              信任建立的四阶段                            │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  阶段 1：怀疑（Doubt）                                    │
│  ├── Agent 能力有限，错误率高                             │
│  ├── 人类全程监督，逐项审查                               │
│  └── 边界：Agent 只能做最简单任务                         │
│       ↓ 通过积累成功案例                                  │
│  阶段 2：试探（Trial）                                    │
│  ├── Agent 能力提升，错误率降低                           │
│  ├── 人类抽样审查，关键节点确认                           │
│  └── 边界：Agent 可以做常规任务，复杂任务需审批            │
│       ↓ 持续验证可靠性                                    │
│  阶段 3：信任（Trust）                                    │
│  ├── Agent 表现稳定，可预期                               │
│  ├── 人类关注结果，过程自主                               │
│  └── 边界：Agent 可以自主完成大部分任务                    │
│       ↓ 长期稳定表现                                      │
│  阶段 4：委托（Delegate）                                  │
│  ├── Agent 成为可靠伙伴                                   │
│  ├── 人类设定目标，Agent 自主规划                         │
│  └── 边界：Agent 可以处理复杂任务，人类关注战略             │
│                                                         │
│  关键：边界随信任度动态调整，不是一成不变                    │
│                                                         │
└─────────────────────────────────────────────────────────┘

6.2 边界调整的策略

信号

解读

调整策略

Agent 成功率高

能力被验证

逐步扩大边界

人工审查发现大量问题

能力不足

收紧边界，加强培训

出现严重事故

边界过宽

立即收紧，复盘改进

人类成为瓶颈

边界过窄

适当放宽，提升效率

新场景出现

未知风险

谨慎试探，逐步放开

七、伦理与责任

7.1 核心伦理原则

┌─────────────────────────────────────────────────────────┐
│              AI 工程伦理原则                             │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  1. 人类最终责任原则                                       │
│     └── 无论 Agent 做什么，人类承担最终责任                 │
│                                                         │
│  2. 透明可解释原则                                         │
│     └── Agent 的决策应该可被理解和审计                      │
│                                                         │
│  3. 公平无偏见原则                                         │
│     └── 防止 Agent 学习并放大人类偏见                       │
│                                                         │
│  4. 隐私保护原则                                           │
│     └── Agent 不应滥用用户数据                              │
│                                                         │
│  5. 安全可控原则                                           │
│     └── 确保 Agent 行为在可控范围内，可紧急停止              │
│                                                         │
│  6. 持续监督原则                                           │
│     └── 即使高度信任，也不完全放任                          │
│                                                         │
└─────────────────────────────────────────────────────────┘

7.2 责任归属框架

场景

责任主体

说明

Agent 按规范执行，结果正确

人类（设计者）

设计良好的 Harness

Agent 按规范执行，结果错误

人类（验收者）

验收把关不严

Agent 违反规范执行

Agent / 系统

系统缺陷，需改进

人类 override Agent 导致错误

人类（决策者）

人类承担责任

边界模糊导致事故

组织 / 管理者

边界定义不清

八、实践建议：如何设定边界

8.1 边界设定 checklist

□ 明确任务的目标和验收标准
□ 评估任务的复杂度和风险等级
□ 确定可自动验证的质量指标
□ 定义人工审查的关键节点
□ 建立紧急停止和回滚机制
□ 明确责任归属和升级路径
□ 设定边界调整的触发条件
□ 建立持续监控和反馈机制

8.2 不同组织的边界策略

组织类型

风险偏好

建议边界策略

初创公司

高风险容忍

边界较宽，快速迭代，快速学习

成长公司

中等风险

边界适中，核心系统保守，外围系统开放

大型企业

低风险容忍

边界较窄，渐进试点，严格治理

金融机构

极低风险

边界严格，强监管，人类终审

政府机构

极低风险

边界极严，透明审计，全程留痕

九、未来展望：边界的演进

9.1 边界扩展的趋势

时间

Agent 能力

边界变化

现在

代码生成、简单修复

常规编码任务

2-3 年

复杂重构、系统设计

架构级任务

5 年

创新设计、自主优化

创造性任务

10 年+

？

9.2 不变的原则

无论边界如何扩展，以下原则始终成立：

人类始终是目标的设定者

人类始终是责任的承担者

人类始终是价值的判断者

十、结语：找到你的边界

Harness Engineering 的边界不是固定的，而是根据场景、信任度、风险偏好动态调整的。

关键是：

理解边界的重要性
建立边界的评估框架
在实践中不断调整优化
始终保持人类的最终控制

找到适合你的边界，让 AI 成为最好的伙伴，而不是替代品或威胁。

参考与延伸阅读

Human-in-the-Loop Machine Learning - Robert Monarch
AI Ethics - Mark Coeckelbergh
Responsible AI - Microsoft