【新智元导读】 虽然圣诞 12 日最后一天,o3 刷新了 ARC-AGI 测试,但离 AGI 依然前途渺茫。而且就在最近,外媒还曝出 GPT-5 不达预期,还因训练数据问题多次踩坑。对手已经纷纷赶上,OpenAI 的前路不容乐观。
OpenAI 轰轰烈烈搞出一场 12 天圣诞特别活动,结果期间发布最轰动成果的,居然是谷歌。
谷歌一发发密集的核弹,让 OpenAI 分成 12 天的挤牙膏黯然失色,毫无还手之力。
原生多模态 Gemini 2.0 Flash,demo 惊艳的 Project Astra,组团出道的 AI 智能体,效果吊打 Sora 掀起全网狂潮的 Veo 2…… 显得 OpenAI 的圣诞活动仿佛是个笑话。
到了最后一天,OpenAI 好歹支棱起来,放出个大的。
奥特曼亲自上场,在直播中揭秘 OpenAI 下一代推理模型 o3,令人印象最为深刻的,就是它在难度极大的 ARC-AGI 基准上遥遥领先。
OpenAI 模型在 ARC-AGI 得分的历年表现
「从 o1 到 o3 要 3 个月。从 o1 Pro 到 o3 只要 1 个月。」
这个对比,算是让前段时间甚嚣尘上的「Scaling Law 撞墙论」打脸了,OpenAI 总算扬眉吐气了一回。
目前,o3 只对安全研究员开放,而大家最关心的是:我们的 GPT-5 呢?
巧了不是,就在直播几小时后,OpenAI 直接被外媒踢爆负面消息:GPT-5 问题不断,遥遥无期!
华尔街日报发文曝料:OpenAI 的新一代 AI 模型 GPT-5 的内部开发项目「Orion」问题重重
文章标题明晃晃地指出「项目延期」、「成本高昂」,直接把奥特曼惹急了!
他暗暗讽刺道:o3 发布没多久,他们就说 AI 的下一个伟大飞跃进展缓慢,这合理吗?
虽然 o3 的性能耀眼,但 GPT-5 究竟何时发布,目前还是未知数。
要知道,自从 2023 年 3 月发布的 GPT-4 到现在,已经超过 18 个月了,市场和投资人的耐心,也快被磨没了。
风头机构 Menlo Ventures 的数据显示,今年 OpenAI 在企业 AI 领域的市场份额,从 50% 暴降至 34%,但老对手 Anthropic 的市场份额却翻了一番,从 12% 涨至 24%。
甚至今天还有消息曝出:因为 OpenAI 模型的性价比太低,微软正计划将非 OpenAI 模型集成到 365 Copilot。
谷歌、Anthropic 的步步紧逼,微软的暗戳戳「背刺」,OpenAI 的境遇,显然已不是当初「赢者通吃」的一家独大。
OpenAI 在 GPT-5 的训练上,问题不断
根据华尔街日报的报道,微软原本计划在年中看到 GPT-5, 但奥特曼在 11 月时表示,今年反正是不会发布了。
当然,这并不是说 OpenAI 什么都没做。
据知情人士透露,OpenAI 至少进行了 2 次大规模的训练,每次都需要数月时间处理和分析海量数据。
但每次训练都会有新的问题出现,同时模型的表现也无法达到研究人员的预期——其性能的提升不足以证明维持新模型高昂的运行成本是值得的。
不仅如此,一次为期 6 个月的训练成本也非常之高——仅计算部分就需要约 5 亿美元。
大语言模型训练日
OpenAI 的 ChatGPT 模型参数规模巨大, 在测试持续的时期内,模型可以被输入数万亿个 token。
ChatGPT 系列不同参数规模比较
一次大规模训练可能需要在数据中心耗时数月,使用的顶级计算芯片达到数万块。
每次训练,研究人员需要在电脑前持续工作数周甚至数月,努力将世界上大部分知识输入到 AI 系统中。
奥特曼曾表示训练 GPT-4 的成本超过 1 亿美元。未来的 AI 模型训练成本预计将突破 10 亿美元。
训练失败令人痛心且代价高昂, 就像航天发射任务中火箭在升空后突然爆炸一样。
为此,研究人员尝试通过开展小规模实验来降低这种失败的风险——在正式训练前进行预先测试(trial run)。
但没想到的是,GPT-5 在预先测试中就已经暴露出了大量问题。
2023 年中旬,OpenAI 启动代号为 Arrakis 的项目,作为 Orion 新设计方案的预先测试。
然而,这个过程的进展非常缓慢——也就是说,更大规模的训练将需要极其长的时间,而成本也将会达到天文数字。
项目结果表明,开发 GPT-5 的道路将远比预期更加曲折。
OpenAI 的研究人员决定对 Orion 进行技术优化,并着手去解决多样化和高质量训练数据不足的问题。
从零开始构建数据
为了让 Orion 更智能,OpenAI 需要扩大模型的规模,而这就需要更多的训练数据。
但众所周知,目前可用的优质数据已经捉襟见肘。
对此,OpenAI 的解决方案是:从头创建数据集。
他们正在组建团队为 Orion 提供学习材料,比如聘请软件工程师编写全新的软件代码,聘请数学家设计数学问题。这些专家还会向系统详细解释他们的解题思路和工作过程。
许多研究人员认为,程序代码作为一种严谨的计算机语言,能够帮助 LLM 学会处理它们此前从未遇到过的问题。
让人们解释他们的思维过程可以深化新创建的数据的价值。
这不仅为 LLM 提供了更多可学习的语言数据,还为模型在未来解决类似问题提供了系统化的解决方案。
与 OpenAI、Meta 等科技巨头都有合作的 AI 基础设施公司 Turing,就会要求软件工程师编程序去高效解决复杂的逻辑问题,或让数学家计算用一百万个篮球堆成的金字塔的最大高度。
然后,这些答案,以及更重要的解题思路和步骤,都会被整合到 AI 的训练数据当中。
此外,OpenAI 还与理论物理等领域的专家展开合作,请他们详细说明如何应对该领域中最具挑战性的问题。这些专业知识也将助力提升 Orion 的智能水平。
这个过程,同样非常缓慢……
据估计,GPT-4 的训练使用了大约 1.3×10¹³ 个 token。即使组织一千人的团队,每人每天撰写 5000 字,要生成十亿个 token 也需要数月时间。
与此同时,OpenAI 也采用了「合成数据」来辅助训练 Orion。然而研究表明,这种 AI 创建数据再用于训练 AI 的反馈循环往往会导致系统故障或产生毫无意义的答案。
据知情人士透露,OpenAI 的科学家们认为,使用另一个 AI 模型 o1 生成的数据,可以避免这些问题。
人才流失
大模型训练充满挑战。而公司内部的剧烈动荡和竞争对手持续以数百万美元年薪挖角其顶尖研究人员,OpenAI 的大模型训练变得更加复杂。
去年,奥特曼突然被 OpenAI 董事会解职,这一事件让许多研究人员对公司的未来产生疑虑。不过奥特曼很快被重新任命为首席执行官,并随即着手改革 OpenAI 的治理架构。
仅在今年一年,就有超过二十多名核心高管、研究人员和资深员工离开了 OpenAI,包括联合创始人兼首席科学家 Ilya Sutskever 和首席技术官 Mira Murati。
在最近的一次人事变动中,著名研究员 Alec Radford 也宣布离职,他在公司服务近八年, 是多篇重要科研论文的主要作者。
重启 Orion 项目
截至 2024 年初,OpenAI 的高管们开始感受到越来越大的压力。
GPT-4 推出已满一年,而竞争对手们正在快速追赶。
Anthropic 公司推出的新一代大模型在业内广受好评,许多专家认为其性能已经超越了 GPT-4。
在 2024 年第二季度,谷歌又推出了智能笔记应用 NotebookLM,这款 AI 辅助写作工具迅速成为年度最受欢迎的人工智能应用。
面对 Orion 项目的研发瓶颈,OpenAI 开始将资源分配到其他项目和应用的开发中。这些新项目包括开发 GPT-4 的轻量级版本,以及名为 Sora 的 AI 视频生成产品。
据知情人士透露,为了争夺有限的算力资源,负责新产品开发的团队与 Orion 研究员之间产生了冲突。
AI 实验室之间的竞争已经远超科学界常态,各大科技公司发表的最新研究成果和技术突破论文数量显著减少。
自 2022 年大量资金涌入市场以来,科技公司开始将这些研究成果视为核心商业机密。一些研究人员对保密工作极其谨慎,甚至拒绝在飞机上、咖啡店或任何可能被他人窥视工作内容的场所办公。
这种过度保密的态度引发了许多资深 AI 研究者的不满,其中包括 Meta 首席 AI 科学家 Yann LeCun。他直言不讳地表示,OpenAI 和 Anthropic 的工作本质上已不能算作研究,而应该被视为「高级产品开发」。
在一次 OpenAI 几乎缺席的 AI 会议上,LeCun 表示:「如果是在商业开发周期的压力下进行的,那就不能称之为研究;如果是在完全保密的情况下进行的,那也不能称之为研究。」
再次踩坑
2024 年初,OpenAI 准备借助改进后的数据再次启动 Orion 项目。研究团队在第一季度开展了数次小规模模型训练,以积累经验并建立信心。
到 5 月,OpenAI 的研究人员认为时机成熟,决定再次尝试 Orion 的大规模模型训练,预计整个过程将持续到 11 月。
然而,训练开始后,研究人员发现了数据集存在的问题:数据的多样性远低于预期,这可能会严重制约 Orion 的学习能力。
这个问题在小规模测试中并未显现,直到大规模训练启动后才暴露出来。考虑到已投入的时间和资金成本过于巨大,OpenAI 已无法从头开始。
为此,研究团队不得不在训练过程中紧急寻找更多样化的数据输入模型。这种补救策略的效果目前仍未可知。
数据正在耗尽
Orion 项目遇到的这些问题向 OpenAI 内部传递出一个信号:过去推动公司取得成功的「规模至上」策略可能已经走到尽头。
不只是 OpenAI 在担忧发展遇到瓶颈。整个 AI 行业都在激烈讨论一个问题:人工智能的技术进步是否已开始进入平台期。
OpenAI 前首席科学家 Ilya Sutskever 最近在 NeurIPS 2024 上明确表示,依靠海量数据推动 AI 发展的时代已经终结。
「由于我们只有一个互联网,数据增长已经到头了。数据就像 AI 领域的化石能源一样,即将枯竭。」
全新策略:增加推理时间
在 Orion 项目的研发过程中,OpenAI 研究人员发现了提升大语言模型智能的新途径:强化推理能力。
研究人员表示,通过延长模型在推理时的「思考」时间,可以使其解决一些没有训练过的难题。
从技术实现角度来看,OpenAI o1 采用多答案生成机制,即对每个问题生成多个候选答案,并通过分析筛选出最优解。
由此,模型便可以处理更复杂的任务,如制定商业计划或设计填字游戏,同时提供详细的推理过程说明——这种机制使模型能够从每次回答中持续学习优化。
不过,苹果的研究员在论文中对此提出了质疑,认为包括 o1 在内的推理模型很可能只是在复现训练数据中的模式,而非真正具备解决新问题的能力。
研究人员发现,当在问题中添加无关信息时,模型性能会出现严重退化——例如,仅仅在一道关于猕猴桃的数学题中加入水果大小差异的描述,就会导致模型表现显著下降。
在最近的 TED 演讲中,OpenAI 的高级研究科学家 Noam Brown 着重强调了推理能力的重要性。
Noam Brown 表示:「我们的研究发现,让 AI 在扑克游戏中进行 20 秒的推理思考,就能获得与将模型规模扩大 100,000 倍并延长训练时间 100,000 倍相当的性能提升。」
一个更先进、更高效的推理模型可能成为 Orion 项目的核心基础。
OpenAI 的研究团队正在深入探索这一方向,并计划将其与传统的数据扩充方法相结合,部分训练数据将来自 OpenAI 的其他 AI 模型。
随后,他们将利用人工生成的内容来进一步优化模型效果。
o3 屠榜基准测试,但距离 AGI 有多远?
随着 o3 的「发布」,模型也在多项基准测试中,相比 o1 pro 取得了明显的提升, 而这才过了 1 个月。
并且,在号称通用人工智能「唯一正式进展基准」的 ARC-AGI 测试中, o3 以 20%+ 的优势远超第二名。
具体来说,o3 在半私有评估集上取得了突破性的 75.7% 高分,在高计算量模式(172 倍计算量)下得分高达 87.5%。
作为对比,ARC-AGI 在此前的 4 年时间里,正确率仅增长了 5%——从 2020 年 GPT-3 时的 0% 到 2024 年 GPT-4o 的 5%。
o3 颠覆了所有关于 AI 能力的直观感受。
毕竟,就算在 GPT-4 上投入再多的计算,也无法获得这样的结果。
但问题在于,提高准确率的代价是巨大的:人类在完成 ARC-AGI 基准测试时,每项任务大约只需支付 5 美元,且只消耗几美分的能量;而 o3 在低计算量模式下,每个任务需要 17-20 美元。
尽管 87.5% 这个更高得分排名性价比很低,但能证明随着计算量的增加,模型的性能确实有所提升。
还不是 AGI
在 ARC-AGI「公开评估」(Public Eval)中,有大约 9% 的任务,即便 o3 加大计算量也无法解决。但对于人类来说却十分简单。
擦擦眼睛,试试能否打败目前最强的 o3 模型。
在尝试前,请注意:在下面这个例子中,箭头前的图片(即上方图片)表示输入,箭头后的图片(下方的图片)表示输出,灰色部分表示数据集中的例子,绿色部分为 o3 的两次错误尝试,最后一部分为答案。
在第一个例子中,o3 先是给出了一个错到离谱的答案,然后在第二次输出中生成了一大片黑色像素……
这似乎是目前为止最差的一次结果,而且很难解释为什会这样。
第二个例子有点考验眼力,虽然每一行都对了的,但网格却没有对齐。
第三个例子,o3 没有将蓝色图块拉到左侧边栏。
最后一个例子,在两次尝试中,o3 的预测中漏掉了几行。看来,它很难记住有多少相同重复的行要输出。
GPT-5 将带来「重大飞跃」?
在 10 月, 投资者给予 OpenAI 的 1570 亿美元估值,很大程度上基于奥特曼预测 GPT-5 将在各类学科和任务上实现「重大飞跃」。
目前并没有固定的标准,来判断一个模型是否足够智能到可以被称为 GPT-5。
普遍的看法是 GPT-5 能够解锁新的科学发现,同时能完成日常任务(如门诊预约或订机票)。
研究人员希望它犯更少的错误,或至少能在犯错时承认自己对答案也有所怀疑,即减少所谓的「AI 幻觉」。
一位前 OpenAI 高管表示,如果说 GPT-4 的表现像个聪明的高中生,那么未来的 GPT-5 在某些任务上将相当于拥有博士学位水平。
今年早些时候,奥特曼在斯坦福大学的一次演讲中告诉学生,OpenAI 可以「以高度的科学确定性」说,GPT-5 将比当前模型更加智能。
公司高管们主要基于经验判断和技术评估,或者如许多技术专家所说的「整体表现」,来决定模型是否达到了 GPT-5 的水平。
但是,到目前为止,这种「整体表现」并不理想。
参考资料: