一、o3、o3 Mini模型重磅介绍
本次主要介绍了新一代推理模型o3、o3-Mini,当前模型暂未开放,还在进行安全测试,普通用户可以在Open AI官网进行申请测试(截止时间2025.1.10),作为模型的安全测试员进行使用。
二、新模型的能力特点介绍
-
2.1 编程能力: 在软件测试基准数据集SWE-Bench Verified 上准确率达71.7%,对比o1提升20%,同时在CodeForce 竞赛编程上达到2727 ELO 分数。
注⚠️:SWE-Bench Verified 是一个用于评估LL解决GitHub上真是问题能力的基准测试数据集。官网地址:www.swebench.com/
-
2.2 数学能力:在AIME 数学竞赛准确率达 96.7%(o1 为 83.3%),在博士级科学问题基准 GPQA Diamond 上达到 87.7%
-
2.3 推理能力:在 ARC-AGI 测试上首次突破人类水平阈值(85%),达到 87.5% 支持三种推理级别:低、中、高。在成本效益方面,以极小成本实现比o1更好的表现。
三、新模型的应用
3.1 o3 Mini 直接链接本地电脑终端Terminal 进行程序运行
四、o3、o3-Mini 模型发布的时间点
o3-Mini预计在2024年1月底进行发布,o3完整版模型预计在o3-Mini模型退出后陆续推出。
视频地址:openai.com/12-days/