谷歌DeepMind强化其前沿安全框架
我们正在扩展风险领域并完善风险评估流程。
人工智能的突破正在改变我们的日常生活,从推动数学、生物学和天文学的发展,到实现个性化教育的潜力。随着我们构建日益强大的AI模型,我们致力于负责任地开发技术,并采取基于证据的方法来防范新兴风险。
今天,我们发布了前沿安全框架(FSF)的第三次迭代版本——这是我们迄今为止识别和减轻先进AI模型所带来的严重风险的最全面的方法。
此次更新建立在与来自工业界、学术界和政府的专家持续合作的基础上。我们还吸收了从以往版本实施中获得的经验教训以及前沿AI安全领域不断发展的最佳实践。
框架的主要更新
应对有害操控风险
通过此次更新,我们引入了一个专注于有害操控的关键能力级别(CCL)*——具体指具有强大操控能力的AI模型,这些模型可能被滥用于在与模型的交互过程中,系统地、实质性地改变已确定的高风险情境下的信念和行为,从而合理地导致额外的大规模预期伤害。
这一补充建立在我们所做的研究基础上,并将其付诸实践,这些研究旨在识别和评估生成式AI产生操控的机制。展望未来,我们将继续在该领域投入,以更好地理解和衡量与有害操控相关的风险。
调整应对对齐风险的方法
我们还扩展了框架,以应对未来可能出现的场景,即未对齐的AI模型可能会干扰操作者指导、修改或关闭其运行的能力。
虽然我们之前的框架版本包含了一种以工具性推理CCL(即针对AI模型何时开始进行欺骗性思考的特定预警级别)为中心的探索性方法,但在此次更新中,我们为机器学习研发CCL提供了进一步的协议,重点关注那些可能将AI研发加速到潜在不稳定水平的模型。
除了这些能力可能带来的滥用风险外,还存在来自模型在这些能力水平上可能产生的未对齐风险,以及此类模型很可能被整合到AI开发和部署流程中的风险。
为应对CCL带来的风险,我们在达到相关CCL的外部发布前进行安全案例审查。这涉及执行详细的分析,以证明风险已降低到可管理的水平。对于高级的机器学习研发CCL,大规模内部部署也可能带来风险,因此我们现在正在扩展此方法以涵盖此类部署。
完善我们的风险评估流程
我们的框架旨在根据风险的严重程度来应对风险。我们已完善了CCL的定义,专门用于识别需要最严格治理和缓解策略的关键威胁。作为我们标准模型开发方法的一部分,我们会在达到特定CCL阈值之前持续应用安全和安保缓解措施。
最后,在此次更新中,我们更详细地阐述了我们的风险评估流程。基于我们核心的早期预警评估,我们描述了我们如何进行整体评估,包括系统性的风险识别、对模型能力的全面分析,以及对风险可接受性的明确判定。
推进我们对前沿安全的承诺
此次对前沿安全框架的最新更新,体现了我们持续致力于在能力向通用人工智能(AGI)迈进的过程中,采取科学且基于证据的方法来跟踪和防范AI风险。通过扩展我们的风险领域和加强风险评估流程,我们旨在确保变革性的AI造福人类,同时最大限度地减少潜在危害。
我们的框架将根据新的研究、利益相关者的反馈以及实施中获得的经验教训不断发展。我们仍然致力于与工业界、学术界和政府进行合作。
通往有益AGI的道路不仅需要技术突破,还需要在整个过程中建立强有力的框架来降低风险。我们希望我们更新的前沿安全框架能为这项集体努力做出有意义的贡献。
*我们围绕称为关键能力级别(CCL)的能力阈值构建了我们的框架。这些能力级别是指在缺乏缓解措施的情况下,前沿AI模型或系统可能构成严重伤害的高风险级别。FINISHED