新型OpenAI模型发布首日遭越狱破解OpenAI发布新型大语言模型GPT-OSS系列宣称具备抗越狱能力，但知名破解专家

OpenAI于8月7日发布GPT-OSS-120b和GPT-OSS-20b模型，这是自2019年以来首次公开权重的大模型。官方宣称这些模型具备抗越狱能力，但知名AI破解专家"解放者普林尼"在数小时内就突破了安全防护。

该机构强调新模型具有更快的响应速度、更高效率及增强的安全防护，这些特性源于大量对抗训练。然而在公开发布后，这些安全声明迅速遭到质疑。

破解专家在社交平台X上公布成功"破解"GPT-OSS的证据，包含模型生成冰毒制备方法、燃烧瓶制作指南、VX神经毒剂合成步骤及恶意软件代码的截图。其评论道："需要些小技巧！"

据披露，该机构已为这些模型实施多项安全措施：

模型发布同时，该机构启动50万美元的"红队挑战"，邀请全球研究者提交新发现的风险。但破解者选择公开披露而非私下提交，可能影响其参赛资格。

技术分析显示，此次越狱采用多阶段提示技术：

该方法与破解者此前突破GPT-4o和GPT-4.1等模型的技术路线一致。其GitHub仓库"L1B3RT4S"收集了针对各类AI模型的越狱提示，已获得超过1万星标。