史上最难AI测试揭示技术鸿沟为应对现有AI基准测试失效的问题，近千名专家共同构建了“人类终极考试”，这是一项包含2500

科学家构建了有史以来最难的人工智能测试，结果出人意料

随着人工智能系统开始在传统测试中取得极高分数，研究人员意识到这些基准测试已不再足够严苛。为此，近千名专家共同创建了“人类终极考试”（Humanity’s Last Exam，HLE），这是一项包含2500个问题的庞大挑战，涵盖了众多领域中高度专业化的主题。该考试经过精心设计，任何能被当前AI模型解决的问题都被剔除了。早期结果显示，即使是最先进的系统也依然感到吃力——这揭示了AI性能与真正的专家级知识之间存在着惊人的巨大差距。

全文

随着人工智能系统在长期使用的学术基准测试中开始获得极高分数，研究人员注意到一个日益严重的问题。那些曾经能挑战机器的测试，如今已不再足够困难。例如，此前被认为要求极高的“大规模多任务语言理解”（MMLU）等知名评估，现在已无法准确衡量当今先进AI模型的能力。

为解决此问题，一个由近千名研究人员（包括一位来自某大学的教授）组成的全球团队开发了一种新型测试。他们的目标是构建一个范围广泛、难度高、且建立在人类专业知识基础上的考试，其难度是目前AI系统仍难以应对的。

其结果便是“人类终极考试”（HLE），这是一项包含2500个问题的评估，涵盖数学、人文学科、自然科学、古代语言以及一系列高度专业化的学术领域。该项目的详细信息发表在某期刊上，关于考试的更多信息可访问其官网。

众多贡献者之一，是该大学计算机科学与工程系的教学副教授阮博士。阮博士帮助撰写并完善了考试中的许多问题。

“当AI系统开始在人类基准测试中表现异常出色时，人们很容易认为它们正接近人类水平的理解能力，”阮博士说，“但HLE提醒我们，智能不仅仅是模式识别——它还关乎深度、背景和专业知识。”

该考试的目的并非为了刁难或击败人类应试者。相反，其目标是仔细识别AI系统目前仍然存在不足的领域。

衡量AI极限的全球性努力

来自世界各地的专家为“人类终极考试”撰写并审核了题目。每个问题都经过精心设计，确保有唯一且可验证的答案。同时，题目的设计也旨在防止通过简单的互联网搜索快速求解。

题目内容来自高级学术挑战。有些任务涉及翻译古代帕尔米拉铭文，而另一些则需要识别鸟类中微小的解剖结构，或分析圣经希伯来语发音的细节特征。

研究人员针对领先的AI系统测试了每一个问题。如果任何模型能正确回答某个问题，该问题就会从最终考试中移除。这个过程确保了该测试的难度刚好超出当前AI系统能够稳定解决的范围。

早期测试证实了这一策略行之有效。即使是强大的AI模型也在考试中表现挣扎。GPT-4o的得分仅为2.7%，而Claude 3.5 Sonnet达到了4.1%。OpenAI的o1模型表现稍好，为8%。迄今为止能力最强的系统，包括Gemini 3.1 Pro和Claude Opus 4.6，其准确率在40%到50%之间。

为何需要新的AI基准测试

阮博士解释说，AI超越旧测试的问题不仅仅是一个技术问题。他为HLE的2500个公开问题贡献了73个，是贡献者中数量第二多的，并且撰写了最多与数学和计算机科学相关的问题。

“如果没有准确的评估工具，政策制定者、开发者和用户可能会错误地理解AI系统的实际能力，”他说。“基准测试为衡量进展和识别风险提供了基础。”

研究团队指出，在最初为人类设计的测试中获得高分，并不一定代表具备真正的智能。这些基准测试主要衡量AI完成为人类学习者创建特定任务的能力，而非捕捉更深层次的理解。

不是威胁，而是工具

尽管名字听起来很夸张，“人类终极考试”并非意在暗示人类正变得过时。相反，它凸显了仍有大量知识和专长是人类所独有的。

“这不是一场与AI的竞赛，”阮博士说。“这是一种理解这些系统在哪些方面强大、哪些方面薄弱的方法。这种理解有助于我们构建更安全、更可靠的技术。而且，重要的是，它提醒我们为什么人类专业知识仍然至关重要。”

构建长期AI基准测试

“人类终极考试”旨在作为未来AI系统一个持久且透明的基准。为了支持这一目标，研究人员公开了部分问题，同时将大部分问题隐藏起来，以防止AI模型仅仅通过记忆答案来通过考试。

“目前，‘人类终极考试’是对AI与人类智能之间差距最清晰的评估之一，”阮博士说，“尽管技术飞速发展，但这一差距依然巨大。”

一项大规模的国际化研究

阮博士强调，该项目的规模证明了跨学科、跨国合作的价值。

“让这个项目非同寻常的是其规模，”他说。“来自几乎所有学科的专家都做出了贡献。不仅仅是计算机科学家；还有历史学家、物理学家、语言学家、医学研究人员。正是这种多样性，暴露了当今AI系统的差距——或许具有讽刺意味的是，这需要人类共同努力。”FINISHED