AI 界又该炸开锅了。
今天凌晨一点,OpenAI 开了场线上发布会,正式把 GPT-5 推了出来。
按照官方说的,GPT-5 在好多方面都更机灵了,像数学、科学、金融、法律这些领域,它都能应付。
感觉就像身边随时跟着一群专家,你有啥想问的,它都能答上来。
GPT-5 不是单个模型
而是把 GPT 系列的大语言模型和 o 系列的推理模型整合到了一起,成了个集成模型。
这意思就是,用户不用自己手动切换各种模型,系统会根据聊天的类型、问题的复杂程度还有用户的想法,靠实时判断的路由机制,自动选不同的子模型来处理问题。
碰到简单的问题,GPT-5-main 模型能很快回应。要是遇上复杂的难题,GPT-5-thinking 深度思考模型就会介入,好好琢磨分析,给出专业的答案。
这种智能调配的本事,让模型用起来更方便、效率更高,用户聊天的时候也会觉得更顺畅、更智能。
从 OpenAI 公开的测试数据来看,GPT-5 在不少关键领域都拿出了顶尖的表现,比之前的模型强很多。
数学方面,在 2025 年 AIME 测试里,它不用工具帮忙就拿到了 94.6% 的成绩,比 o3 模型高出一大截。
编程上,GPT-5 也很厉害,凭着简单的指令就能快速做出复杂的游戏、网络应用和财务分析模板之类的东西,能从头到尾处理复杂的编码活儿,写出的代码更好用,设计也更棒,调试能力也更出色。
在视觉感知和健康领域,它表现也很突出,在健康领域比 GPT-4o、o1、o3 和 o4-mini 这些前代模型都强,能给出更准确可靠的健康相关回复,还会主动给出自己的思考和建议。
在大模型竞技场 LMArena 上,GPT-5 在所有细分项目里都是第一,这足以说明它有多强。
“AI 幻觉” 一直是大模型的老大难问题
不过 GPT-5 在这方面有了明显进步。和 GPT-4o 比,GPT-5 的事实错误率降了 45%;在深度思考模式下,比 o3 的事实错误率降低了 80%。在开放性事实准确性基准 LongFact 和 FActScore 测试中,GPT-5 的幻觉率大概是 o3 的六分之一,写长篇内容的时候准确性提高了不少,变得更靠谱,能给用户更值得相信的回答。
GPT-5 推出的版本:
有 GPT-5、GPT-5-mini、GPT-5-nano
免费使用GPT-5、claude-sonnet-4:www.meoyun.com