Open AI 发布会 Day 12

117 阅读1分钟

一、o3、o3 Mini模型重磅介绍

本次主要介绍了新一代推理模型o3、o3-Mini,当前模型暂未开放,还在进行安全测试,普通用户可以在Open AI官网进行申请测试(截止时间2025.1.10),作为模型的安全测试员进行使用。

二、新模型的能力特点介绍

  • 2.1 编程能力: 在软件测试基准数据集SWE-Bench Verified 上准确率达71.7%,对比o1提升20%,同时在CodeForce 竞赛编程上达到2727 ELO 分数。

    注⚠️:SWE-Bench Verified 是一个用于评估LL解决GitHub上真是问题能力的基准测试数据集。官网地址:www.swebench.com/

  • 2.2 数学能力:在AIME 数学竞赛准确率达 96.7%(o1 为 83.3%),在博士级科学问题基准 GPQA Diamond 上达到 87.7%

  • 2.3 推理能力:在 ARC-AGI 测试上首次突破人类水平阈值(85%),达到 87.5% 支持三种推理级别:低、中、高。在成本效益方面,以极小成本实现比o1更好的表现。

三、新模型的应用

3.1 o3 Mini 直接链接本地电脑终端Terminal 进行程序运行

四、o3、o3-Mini 模型发布的时间点

o3-Mini预计在2024年1月底进行发布,o3完整版模型预计在o3-Mini模型退出后陆续推出。

视频地址:openai.com/12-days/