史上最难AI测试揭示技术鸿沟

3 阅读5分钟

科学家构建了有史以来最难的人工智能测试,结果出人意料

随着人工智能系统开始在传统测试中取得极高分数,研究人员意识到这些基准测试已不再足够严苛。为此,近千名专家共同创建了“人类终极考试”(Humanity’s Last Exam,HLE),这是一项包含2500个问题的庞大挑战,涵盖了众多领域中高度专业化的主题。该考试经过精心设计,任何能被当前AI模型解决的问题都被剔除了。早期结果显示,即使是最先进的系统也依然感到吃力——这揭示了AI性能与真正的专家级知识之间存在着惊人的巨大差距。


全文

随着人工智能系统在长期使用的学术基准测试中开始获得极高分数,研究人员注意到一个日益严重的问题。那些曾经能挑战机器的测试,如今已不再足够困难。例如,此前被认为要求极高的“大规模多任务语言理解”(MMLU)等知名评估,现在已无法准确衡量当今先进AI模型的能力。

为解决此问题,一个由近千名研究人员(包括一位来自某大学的教授)组成的全球团队开发了一种新型测试。他们的目标是构建一个范围广泛、难度高、且建立在人类专业知识基础上的考试,其难度是目前AI系统仍难以应对的。

其结果便是“人类终极考试”(HLE),这是一项包含2500个问题的评估,涵盖数学、人文学科、自然科学、古代语言以及一系列高度专业化的学术领域。该项目的详细信息发表在某期刊上,关于考试的更多信息可访问其官网。

众多贡献者之一,是该大学计算机科学与工程系的教学副教授阮博士。阮博士帮助撰写并完善了考试中的许多问题。

“当AI系统开始在人类基准测试中表现异常出色时,人们很容易认为它们正接近人类水平的理解能力,”阮博士说,“但HLE提醒我们,智能不仅仅是模式识别——它还关乎深度、背景和专业知识。”

该考试的目的并非为了刁难或击败人类应试者。相反,其目标是仔细识别AI系统目前仍然存在不足的领域。

衡量AI极限的全球性努力

来自世界各地的专家为“人类终极考试”撰写并审核了题目。每个问题都经过精心设计,确保有唯一且可验证的答案。同时,题目的设计也旨在防止通过简单的互联网搜索快速求解。

题目内容来自高级学术挑战。有些任务涉及翻译古代帕尔米拉铭文,而另一些则需要识别鸟类中微小的解剖结构,或分析圣经希伯来语发音的细节特征。

研究人员针对领先的AI系统测试了每一个问题。如果任何模型能正确回答某个问题,该问题就会从最终考试中移除。这个过程确保了该测试的难度刚好超出当前AI系统能够稳定解决的范围。

早期测试证实了这一策略行之有效。即使是强大的AI模型也在考试中表现挣扎。GPT-4o的得分仅为2.7%,而Claude 3.5 Sonnet达到了4.1%。OpenAI的o1模型表现稍好,为8%。迄今为止能力最强的系统,包括Gemini 3.1 Pro和Claude Opus 4.6,其准确率在40%到50%之间。

为何需要新的AI基准测试

阮博士解释说,AI超越旧测试的问题不仅仅是一个技术问题。他为HLE的2500个公开问题贡献了73个,是贡献者中数量第二多的,并且撰写了最多与数学和计算机科学相关的问题。

“如果没有准确的评估工具,政策制定者、开发者和用户可能会错误地理解AI系统的实际能力,”他说。“基准测试为衡量进展和识别风险提供了基础。”

研究团队指出,在最初为人类设计的测试中获得高分,并不一定代表具备真正的智能。这些基准测试主要衡量AI完成为人类学习者创建特定任务的能力,而非捕捉更深层次的理解。

不是威胁,而是工具

尽管名字听起来很夸张,“人类终极考试”并非意在暗示人类正变得过时。相反,它凸显了仍有大量知识和专长是人类所独有的。

“这不是一场与AI的竞赛,”阮博士说。“这是一种理解这些系统在哪些方面强大、哪些方面薄弱的方法。这种理解有助于我们构建更安全、更可靠的技术。而且,重要的是,它提醒我们为什么人类专业知识仍然至关重要。”

构建长期AI基准测试

“人类终极考试”旨在作为未来AI系统一个持久且透明的基准。为了支持这一目标,研究人员公开了部分问题,同时将大部分问题隐藏起来,以防止AI模型仅仅通过记忆答案来通过考试。

“目前,‘人类终极考试’是对AI与人类智能之间差距最清晰的评估之一,”阮博士说,“尽管技术飞速发展,但这一差距依然巨大。”

一项大规模的国际化研究

阮博士强调,该项目的规模证明了跨学科、跨国合作的价值。

“让这个项目非同寻常的是其规模,”他说。“来自几乎所有学科的专家都做出了贡献。不仅仅是计算机科学家;还有历史学家、物理学家、语言学家、医学研究人员。正是这种多样性,暴露了当今AI系统的差距——或许具有讽刺意味的是,这需要人类共同努力。”FINISHED