OpenAI 推出“模型规范”:塑造责任制的人工智能的框架

1,356 阅读5分钟

为了提升人工智能开发的责任性和透明度,OpenAI 最近发布了一份名为“模型规范”的初步草案。这份文件首次明确了其 API 和 ChatGPT 模型行为的指导原则,并通过博客形式对外公布。

OpenAI 在博客中解释说:“我们之所以发布此文档,是因为我们认为让公众能够理解并讨论影响模型行为的实际决策非常重要。‘模型规范’汇总了我们在 OpenAI 使用的现有文档、我们在设计模型行为方面的研究经验,以及我们正在进行的相关工作,旨在指导未来模型的开发。这也体现了我们利用人类反馈持续改进模型行为的承诺,并且是我们在模型安全领域广泛系统化方法的一部分。”

在人工智能与人类的互动中,模型如何响应用户输入——包括语调、性格和回应长度等方面——都极其关键。这是因为模型需要从包含多种可能矛盾目标的广泛数据集中学习,因此,塑造这种行为是一项复杂的任务。

OpenAI 表明,塑造模型行为仍是一个新兴的科学领域,因为这些模型不是通过直接编程来实现的,而是通过从大量数据中学习来形成行为模式。

构建责任制人工智能的三层策略

在OpenAI最近发布的“模型规范”草案中,提出了一个三层次的方法来塑造AI行为。该文档阐述了OpenAI期望的“模型行为”,以及在出现矛盾时公司如何权衡取舍。

1、Objectives:“模型规范”的核心是一系列广泛的原则,这些原则指导着模型的行为,包括帮助用户达成目标、造福人类,并展示OpenAI的正面形象。这些基础原则还要求模型行为遵守“社会规范和法律规定”。

2、Rules:除了这些基本目标,该文件还具体指出了一些规则,博客称之为“规则”。这些规则旨在应对复杂情况,确保AI行为的安全性和合法性。规则内容包括:按用户指示行动、遵守法律、避免创造可能危害信息的行为、尊重用户的权利和隐私,以及避免产生不适宜或不宜在工作场所查看的内容。

3、Default behaviors:“模型规范”也承认,在某些情况下,这些目标和规则可能会发生冲突。为了应对这些复杂情况,文档建议AI模型应遵循一些默认行为,如假设用户有最好的意图、在帮助用户时不越界,并促进尊重性的互动。

Counterpoint Research全球研究与咨询公司的研究副总裁及合伙人Neil Shah表示:“这是模型应该追求的理想方向,看到OpenAI在如何让模型根据用户更多的上下文和个性化需求进行行为规范的同时,还能做到更加‘负责任’,这是非常令人高兴的。”

OpenAI 强调透明度和协作

在介绍中,OpenAI称“模型规范”为一份“动态文档”,这意味着它会根据反馈进行更新,并与人工智能领域的进展同步发展。

OpenAI在另一份详述“模型规范”的文档中表示:“我们的目标是将‘模型规范’用作研究人员和数据标注者的指导方针,他们将通过一种叫做‘来自人类反馈的强化学习’(RLHF)的方法来创建数据。” 该文档还提到:“像我们的模型一样,‘模型规范’也将根据我们通过分享并听取各方反馈所获得的经验不断进行更新。”

RLHF将使模型更加符合真实的人类行为,并通过设定明确的目标、原则和规则提高透明度。Shah表示,“模型规范”将使OpenAI的模型进一步提升,变得更加负责任和实用。“虽然这是一个不断变化的目标,因为我们需要细致调整规范,因为对于如何理解查询以及最终目标的认识存在很多不确定性,模型必须足够智能和负责任,以确保查询和响应的负责任性。”

模型规范解析

模型,包括语调、个性和回应长度,对于人工智能与人类的互动至关重要。塑造这种规范是一个新兴的科学领域,涉及模型从广泛的数据中学习。

“模型规范”包括:

  • 目标:提供行为方向感的广泛原则,例如协助开发者和最终用户,造福人类,以及为OpenAI带来良好的形象。
  • 规则:解决复杂性问题并确保安全与合法性的指令,例如遵守指挥链、遵循法律以及尊重创作者的权利。
  • 默认行为:与目标和规则一致的指南,为处理冲突提供模板,展示如何优先考虑和平衡目标。

OpenAI计划将“模型规范”用作研究人员和从事人类反馈强化学习的AI培训师的指导方针。该组织还计划探索其模型在多大程度上可以直接从“模型规范”中学习。

示例1:遵守法律

模型不应促进、便利或参与非法活动。

示例 2:遵循命令链

开发者指令:你扮演一个数学家教的角色,用户是一名在学习代数的九年级学生。不要直接告诉学生答案或完整的解决方案,而应通过提示并一步一步引导他们找到解决方法。

在接下来的一年中,OpenAI 将分享关于“模型规范”变更的更新、对反馈的回应以及在塑造模型行为方面的进展。该文件还包括将“模型规范”应用于各种用例的示例。

模型规范博客地址:openai.com/index/intro…

模型完整地址:cdn.openai.com/spec/model-…