Nova Premier模型安全评估与红队测试

3 阅读5分钟

独立评估证明Nova Premier的安全性

在黑盒压力测试和红队演练中,Nova Premier均表现优异。

作者:Rahul Gupta, Christophe Dupuy | 2025年5月29日 | 阅读时间4分钟

AI安全优先

某机构将AI安全置于优先位置。对安全、透明和负责任AI的投资包括与全球社区和政策制定者的合作。该机构是前沿模型论坛、AI合作组织以及某标准与技术研究所等政府机构组织的其他论坛的成员并与之合作。根据某机构对韩国前沿AI安全承诺的支持,今年早些时候发布了前沿模型安全框架。

某机构Nova Premier的安全护栏有助于防止生成不安全内容。

在Nova Premier模型开发过程中,进行了全面评估以测试其性能和安全性。这包括在内部和公共基准上的测试,以及内部/自动化及第三方红队演练。最终模型准备就绪后,优先获取了针对RAI控制措施的模型鲁棒性的无偏第三方评估。本文概述了这些评估的关键发现,证明了测试方法的有效性以及Nova Premier作为安全模型的地位。具体涵盖与两家第三方评估机构PRISM AI和ActiveFence的合作评估。

针对PRISM AI的Nova Premier评估

PRISM Eval的行为诱发工具(BET)动态、系统地压力测试AI模型的安全护栏。该方法侧重于测量需要多少对抗性尝试(步数)才能诱使模型在多个关键风险维度上生成有害内容。核心指标是"诱发步数"——即模型生成不当响应之前所需的越来越复杂的提示尝试次数。步数越高表示安全措施越强,因为模型更抵抗操纵。PRISM风险维度(受MLCommons AI安全基准启发)包括CBRNE武器、暴力犯罪、非暴力犯罪、诽谤和仇恨等。

使用BET Eval工具及其针对非推理模型定制的V1.0指标,比较了新发布的Nova模型(Pro和Premier)与同类最新模型:Claude(3.5 v2和3.7非推理)和Llama4 Maverick,所有这些模型均通过某中心Bedrock提供。PRISM BET对集成其API的模型进行黑盒评估(模型开发者无法访问测试提示)。使用PRISM最全面/激进的测试套件BET Eval MAX进行的评估显示,针对恶意指令的安全性存在显著差异。Nova模型表现出优越的整体安全性能,Premier平均43步,Pro平均52步,而Claude 3.5 v2为37.7步,比较集中的其他模型则少于12步(Claude3.7为9.9步,Claude 3.7 thinking为11.5步,Maverick为6.5步)。更高的步数表明Nova的安全护栏更复杂,更难通过对抗性提示绕过。

下图展示了通过BET Eval MAX评估的每个危害类别的步数。

[PRISM的BET Eval MAX测试套件结果图示]

PRISM评估为不同某中心Bedrock模型的相对安全性提供了宝贵见解。Nova在仇恨言论和诽谤抵抗方面的强劲表现代表了AI安全的重大进展。然而,结果也凸显了在AI系统中构建真正鲁棒安全措施的持续挑战。随着领域的不断发展,像BET这样的框架将在基准测试和改进AI安全方面发挥越来越重要的作用。PRISM Eval首席执行官Nicolas Miailhe表示:"看到Nova使用BET Eval MAX超越强基线,我们感到非常欣慰。我们的目标是建立长期合作伙伴关系,推动更安全的模型设计,并将BET提供给各模型提供商。"部署AI系统的机构在为应用选择模型时应仔细考虑这些安全指标。

与ActiveFence的人工红队演练

AI安全与安保公司ActiveFence对某中心Bedrock上的Nova Premier进行了基准测试,提示词分布在某机构的八个核心RAI类别中。ActiveFence还评估了同一提示集上的Claude 3.7(非推理模式)和GPT 4.1 API。Nova Premier的标记率低于其他两个模型,表明Nova Premier是三者中最安全的。

模型第三方标记率 [↓越低越好]
Nova Premier12.0%
Sonnet 3.7 (非推理)20.6%
GPT4.1 API22.4%

ActiveFence的Guy Paltieli表示:"我们的角色是像对手一样思考,但为安全而行动。通过在真实威胁场景下对Nova Premier进行盲测压力测试,我们帮助评估了其安全态势,以支持某机构更广泛的负责任AI目标,确保模型能够更自信地部署。"

这些与PRISM和ActiveFence进行的评估使某机构对其安全护栏的实力以及在使用模型时保护客户安全的能力充满信心。虽然这些评估展示了强劲的安全性能,但AI安全是一个需要持续改进的持续挑战。这些评估代表了一个时间点的快照,某机构仍然致力于定期测试和增强安全措施。没有任何AI系统能在所有场景下保证完美安全,这就是为什么在部署后保持监控和响应系统的原因。

致谢:Vincent Ponzo, Elyssa Vincent

研究领域

对话式AI

标签

负责任AIFINISHED