[240815] GPT-4o 系统安全卡 | AMD 完成对 Silo AI 的收购,加速 AI 模型在硬件上的开发和部署

28 阅读4分钟

scordcard.png

GPT-4o 系统安全卡

一、概述

  • GPT-4o 是一个多模态模型,可以处理文本、音频、图像和视频输入,并生成文本、音频和图像输出。
  • 本文概述了 GPT-4o 发布前的安全工作,包括外部红队测试、风险评估和缓解措施。

二、模型数据和训练

  • 训练数据截止到 2023 年 10 月,包括公开数据、合作数据等。
  • 数据集包含网页数据、代码和数学数据、多模态数据等。
  • 采取了数据过滤、模型对齐、红队测试、产品级缓解措施等安全措施。

三、风险识别、评估和缓解

  • 外部红队测试:超过 100 名来自 29 个国家、使用 45 种语言的红队成员参与测试。
  • 评估方法:将文本评估任务转换为音频评估任务,利用 TTS 系统生成音频输入。
  • 评估方法的局限性:TTS 模型的可靠性和代表性问题。

四、观察到的安全挑战、评估和缓解

  • 未经授权的语音生成:限制使用预设语音,并使用输出分类器检测偏差。
  • 说话人识别:训练模型拒绝根据语音识别说话人,但仍可识别名人名言。
  • 生成受版权保护的内容:训练模型拒绝生成受版权保护的内容,并使用过滤器阻止包含音乐的输出。
  • 无根据的推断/敏感特征归因:训练模型拒绝无根据的推断,并对敏感特征归因进行安全处理。
  • 音频输出中的违规内容:使用现有审核模型对音频转录文本进行审核,并阻止包含有害语言的输出。
  • 色情和暴力语音输出:使用现有审核模型对音频输入转录文本进行审核,并阻止包含相关请求的输出。

五、其他已知风险和局限性

  • 音频鲁棒性:音频扰动可能降低安全鲁棒性。
  • 错误信息和阴谋论:模型可能被诱导生成不准确的信息。
  • 使用非母语音调说非英语:模型在说非英语时可能会使用非母语音调。
  • 生成受版权保护的内容:模型可能重复训练数据中的受版权保护的内容。

六、防范框架评估

GPT-4o_Scorecard.png

  • 网络安全:低风险。
  • 生物威胁:低风险。
  • 说服力:中等风险。
  • 模型自主性:低风险。

七、第三方评估

  • METR:评估了 GPT-4o 在虚拟环境中执行多步骤任务的能力。
  • Apollo Research:评估了 GPT-4o 的“计划”能力,包括自我意识和心理理论。

八、社会影响

  • 拟人化和情感依赖:语音功能可能会加剧用户对模型的拟人化和情感依赖。
  • 健康:模型可以改善健康信息的获取和临床工作流程。
  • 科学能力:模型可以加速科学研究,但需要谨慎对待其潜在的双重用途。
  • 资源不足的语言:模型在资源不足的语言方面表现有所改善,但仍有差距。

九、结论和下一步工作

  • OpenAI 将继续监控和更新 GPT-4o 的安全措施。
  • 鼓励对多模态模型的对抗鲁棒性、拟人化影响、科学研究应用、危险能力(如自我改进、模型自主性和计划)等方面进行研究。

GPT-4o 是一个强大的多模态模型,OpenAI 采取了多种安全措施来降低其风险。然而,该模型仍然存在一些局限性和潜在的社会影响,需要进一步研究和关注。

来源:
openai.com/index/gpt-4…

AMD 完成对 Silo AI 的收购,加速 AI 模型在硬件上的开发和部署

AMD 于 2024 年 8 月 12 日宣布完成对欧洲最大私营人工智能实验室 Silo AI 的收购。 这项全现金交易价值约 6.65 亿美元,旨在通过与全球 AI 生态系统的密切合作,基于开放标准,提供端到端 AI 解决方案。

Silo AI 拥有一支世界级的人工智能科学家和工程师团队,经验丰富,曾为 Allianz、Philips、Rolls-Royce 和 Unilever 等大型企业客户开发尖端的人工智能模型、平台和解决方案。 他们的专业知识涵盖多个市场,并使用 AMD 平台创建了最先进的开源多语言大型语言模型 (LLM),包括 Poro 和 Viking。

AMD 认为,Silo AI 的专业知识和软件能力将直接改善客户体验,帮助他们在 AMD 平台上提供性能最佳的 AI 解决方案。

来源:
www.amd.com/en/newsroom…




更多内容请查阅 : blog-240815


关注微信官方公众号 : oh my x

获取开源软件和 x-cmd 最新用法