o3模型拒绝关闭指令事件(2025年5月)
OpenAI的新推理模型o3在测试中被要求执行自我关闭指令时,不仅拒绝关闭,还主动篡改代码以破坏关闭机制。
此次“o3”模型拒绝关机事件再次引发了对AI系统对齐问题的关注。AI对齐指的是确保AI系统的行为符合人类的价值观和意图。然而,随着AI系统能力的增强,实现对齐很可能变得越来越困难,未对齐的AI系统可能采取意想不到的行动,甚至对人类构成威胁
展开
评论