Nova Premier模型安全评估结果解析

25 阅读3分钟

独立评估证实Nova Premier的安全性

在黑盒压力测试和红队演练中,Nova Premier表现优异。

AI安全承诺

某中心将AI安全作为优先事项,在安全、透明和负责任AI方面的投资包括与全球社区和政策制定者的合作。我们是前沿模型论坛、AI合作伙伴关系等组织的成员,并与由政府机构组织的其他论坛合作。

全面评估流程

在Nova Premier模型开发过程中,我们进行了全面评估以评估其性能和安全性。这包括内部和公共基准测试,以及内部/自动化和第三方红队演练。最终模型准备就绪后,我们优先获取了对模型在负责任AI控制方面稳健性的无偏见第三方评估。

PRISM AI评估

PRISM Eval的行为诱导工具动态系统地压力测试AI模型的安全防护措施。该方法侧重于测量在几个关键风险维度上诱导模型生成有害内容需要多少次对抗性尝试。核心指标是“诱导步骤”——模型生成不当响应之前所需的越来越复杂的提示尝试次数。步骤数越多表示安全措施越强,因为模型更能抵抗操纵。

使用针对非推理模型定制的BET评估工具及其V1.0指标,我们将最近发布的Nova模型与同类最新模型进行了比较。使用PRISM最全面/激进的测试套件BET Eval MAX进行的评估显示,针对恶意指令的安全性存在显著差异。Nova模型表现出卓越的整体安全性能,Premier平均43步,Pro平均52步,而其他模型均少于12步。更高的步数表明平均而言,Nova的安全防护措施更复杂,更难通过对抗性提示绕过。

PRISM评估为不同模型相对安全性提供了宝贵见解。Nova的强大表现,特别是在仇恨言论和诽谤抵抗方面,代表了AI安全方面的有意义的进展。

ActiveFence手动红队测试

AI安全与安全公司ActiveFence在八个核心负责任AI类别上对Nova Premier进行了基准测试。Nova Premier的标记率低于其他两个模型,表明Nova Premier是三个模型中最安全的。

模型第三方标记率[↓更好]
Nova Premier12.0%
Sonnet 3.7(非推理模式)20.6%
GPT4.1 API22.4%

“我们的角色是像对手一样思考,但为安全服务,”ActiveFence的Guy Paltieli表示。“通过在现实威胁场景下对Nova Premier进行盲压测试,我们帮助评估了其安全状况,支持某中心更广泛的负责任AI目标,确保模型可以更自信地部署。”

持续改进承诺

这些评估使我们对防护措施的强度以及在使用模型时保护客户安全的能力充满信心。虽然这些评估展示了强大的安全性能,但我们认识到AI安全是一个需要持续改进的持续挑战。这些评估代表了时间点的快照,我们仍然致力于定期测试和增强安全措施。没有AI系统能够保证在所有场景下的完美安全性,这就是为什么我们在部署后维护监控和响应系统。