昨天 OpenAI 发布了一篇重磅博文,详细阐述了 Model Spec 的设计哲学和演进机制。这不是又一篇 AI 安全的空洞宣言——它揭示了一个关键工程问题:当你的产品是一个会"说话"的模型,你怎么定义它该说什么、不该说什么?
Model Spec 是什么
简单说,Model Spec 是 OpenAI 给模型写的"行为规范"。它定义了模型如何遵循指令、如何解决冲突、如何尊重用户自由、如何在安全边界内行事。
但有意思的是,OpenAI 自己承认:这不是对现有行为的描述,而是一个目标。 模型今天的表现并不完全符合 Model Spec,它更像是一个北极星——训练、评估、迭代都朝着这个方向走。
这种坦诚在大厂发布中相当少见。
为什么这件事重要
过去两年,AI 模型的"行为"问题一直靠 RLHF 和内部红队来兜底。问题是:
- 不透明。 用户不知道模型为什么拒绝某个请求,也不知道规则是什么
- 不一致。 同一个问题,换个说法可能得到完全不同的回应
- 不可审计。 外部研究者和监管者没有参照物
Model Spec 试图把这些隐式规则显式化。它不是法律文件,但它是一个可以被检视、批评、改进的公开框架。
架构思维看 Model Spec
作为工程师,我最感兴趣的是它的分层设计。OpenAI 把行为治理拆成了三层:
- Preparedness Framework — 关注前沿能力带来的风险,越强的能力需要越高的安全门槛
- Model Spec — 关注日常行为规范,覆盖广泛的使用场景
- AI Resilience — 关注社会层面的适应性,确保 AI 部署是渐进的、可控的
这三层分别对应:能力风险、行为规范、社会影响。分层清晰,各司其职。好的系统架构就该是这样——每一层解决一类问题,不互相越界。
值得关注的几个设计选择
1. 公开而非内部
把行为规范公开,意味着接受外部审视。这在商业上是有风险的——竞争对手可以研究你的规则找漏洞,媒体可以逐条挑刺。但从长远看,透明度是建立信任的唯一路径。
2. 迭代而非固定
Model Spec 不是一锤子买卖。它随着模型能力提升、用户反馈、公众讨论不断演进。这很像软件工程里的 living document——文档和代码一样需要版本管理。
3. 集体对齐(Collective Alignment)
OpenAI 正在投资公众反馈机制,让更多人参与定义"AI 应该怎么做"。这是一个有趣的方向——如果 AI 的行为最终影响所有人,那行为规范的制定是不是也该有更广泛的参与?
我的看法
Model Spec 是正确方向上的一步。但我对几个点持保留态度:
执行差距。 有规范是一回事,模型真正遵守是另一回事。目前的 RLHF 和 Constitutional AI 技术还做不到精确地让模型遵守一份几十页的文档。规范越详细,执行偏差可能越大。
谁来仲裁? 当用户说"我需要这个信息"和 Model Spec 说"不该提供"发生冲突时,仲裁权在谁手里?这个问题 Model Spec 没有完全回答。
行业标准化。 如果每家公司都有自己的 Model Spec,用户在不同模型间切换时会面临完全不同的行为边界。像 OfoxAI(ofox.ai)这样的多模型平台上,用户一天可能切换 Claude、GPT、Gemini 好几次——行为规范的碎片化会是一个越来越明显的痛点。
不管怎样,OpenAI 把这个话题从"内部红队的事"推到了"公共讨论的桌面上"。这本身就值得肯定。
原文:Inside our approach to the Model Spec — OpenAI, 2026.03.25