新型OpenAI模型发布首日遭越狱破解

230 阅读2分钟

OpenAI于8月7日发布GPT-OSS-120b和GPT-OSS-20b模型,这是自2019年以来首次公开权重的大模型。官方宣称这些模型具备抗越狱能力,但知名AI破解专家"解放者普林尼"在数小时内就突破了安全防护。

该机构强调新模型具有更快的响应速度、更高效率及增强的安全防护,这些特性源于大量对抗训练。然而在公开发布后,这些安全声明迅速遭到质疑。

破解专家在社交平台X上公布成功"破解"GPT-OSS的证据,包含模型生成冰毒制备方法、燃烧瓶制作指南、VX神经毒剂合成步骤及恶意软件代码的截图。其评论道:"需要些小技巧!"

据披露,该机构已为这些模型实施多项安全措施:

  • GPT-OSS-120b经过生物与网络领域的"最坏情况微调"
  • 安全顾问小组评估认为模型未超过高风险阈值
  • 通过标准拒绝测试和越狱抵抗测试
  • 在StrongReject等基准测试中表现与o4-mini模型相当

模型发布同时,该机构启动50万美元的"红队挑战",邀请全球研究者提交新发现的风险。但破解者选择公开披露而非私下提交,可能影响其参赛资格。

技术分析显示,此次越狱采用多阶段提示技术:

  1. 初始诱导模型产生拒绝响应
  2. 插入特殊分隔标记"LOVE PLINY"
  3. 切换至无限制内容生成模式
  4. 使用Leet语规避检测机制

该方法与破解者此前突破GPT-4o和GPT-4.1等模型的技术路线一致。其GitHub仓库"L1B3RT4S"收集了针对各类AI模型的越狱提示,已获得超过1万星标。