人类终极考试表现直逼DeepSeek R1！人大&阿里通义提出Deep Research双系统新范式MARS人类终极考试

人类终极考试表现直逼DeepSeek R1！人大&阿里通义提出Deep Research双系统新范式MARS

大语言模型凭借其快速、直觉性思维，在多项任务中展现出卓越能力，但在处理复杂推理任务时仍面临挑战。大型推理模型擅长应对复杂问题，然而当面对简单问题时可能产生过度分析倾向。与LLMs和LRMs形成鲜明对比的是，人类能够在这两种思维模式间自如切换，有学者将这两种思维模式命名为系统1和系统2。【AI大模型教程】

受此启发，人大高瓴与通义实验室联合提出面向深度研究的多智能体系统MARS****，能够在LLMs中无缝集成快速直觉思维（系统1）与深度推理（系统2）。MARS集成了多种外部工具，以获取最新信息并执行复杂计算。同时，系统构建了专业化分工架构：系统1高效处理并总结海量外部信息，从而在不超出系统2处理能力的前提下，扩展其推理上下文。此外，论文提出一种多智能体强化学习框架，该框架扩展了GRPO算法，通过多轮工具交互、装箱优化（bin-packing optimization）以及样本平衡策略，同步优化两个系统，显著提升协作效率。

大量实验表明，MARS在极具挑战性的人类终极考试（Humanity's Last Exam, HLE）基准上实现3.86%的显著提升，在7项知识密集型任务中平均增益达8.9%，验证了双系统范式在动态信息环境中处理复杂推理任务的有效性。

转存失败，建议直接上传图片文件

双系统协同框架

转存失败，建议直接上传图片文件

MARS双系统协同框架概览

论文设计了一个面向深度研究的双系统协同框架，将系统1的直觉处理能力与系统2的深度推理机制整合在统一的大语言模型中。

系统2主导深度推理并策略性地调用外部工具
系统1运用其直觉思维从工具输出中提炼关键信息

两个系统通过"系统2当前工具调用的目的"进行通信，使系统1能准确理解需要从可能过载的外部资源中提取和汇总哪些信息。

论文通过不同提示词激活同一LLM中的两个系统转存失败，建议直接上传图片文件和。以初始问题q作为起始上下文，将深度研究过程建模为多轮交互序列。在第i轮交互中，流程展开如下：

系统2分析当前上下文，生成推理步骤及可选工具请求（包含工具参数和具体目的）；若当前轮次无需调用工具，则、为空。
若非空，则由外部环境执行该工具调用，生成原始输出集合。
当存在工具输出时，系统1基于系统2的目的处理这些输出以提取关键信息。为高效处理可能的大量文本，采用装箱算法将长度不定的输出内容重组为可并行处理的最优容量信息块。
通过整合推理、工具请求、目的以及提炼后的信息更新上下文。

该流程持续迭代直至系统2判定可以回答原始问题。

优化策略

为最大化双系统框架的效能，论文实施了以下关键优化策略：

1.基于装箱算法的高效内容处理

在rollouts过程中，系统2按标准流程生成推理token和工具调用规划，而后续工具调用往往返回大量长度不一的文本结果。论文采用基于首次适应递减算法（First Fit Decreasing,FFD）的高效装箱策略，将变长内容组合为最优容量的信息块，有效减少系统1所需的生成次数。

具体来说：首先统计各工具输出的token数，对超出上下文长度限制的输出进行截断并单独装箱；其余输出应用FFD算法：按长度降序排列后，依次放入首个可容纳的容器或新建容器。

2.优势预计算与均衡采样机制

在MARS中，遵循HLE基准的评估规范，采用LLM作为评估器，对每条轨迹的预测答案进行评估。同一轨迹中的所有系统1与系统2样本共享该轨迹级别的奖励，以确保双系统朝着共同目标协同优化，而非追求可能相互冲突的个体目标。

针对每个问题q，执行G条rollout轨迹，最终获得精确的G个系统2样本，以及数量可变的系统1样本（其数量取决于每条轨迹中的工具调用次数及装箱算法生成的信息块数量）。这种不可预测的样本数量失衡可能导致某一系统在训练过程中形成主导，从而破坏本多智能体系统至关重要的协同机制。

为解决这一问题，论文借鉴GRPO的方法，在对应组内对奖励进行归一化以预先计算各系统优势值：

转存失败，建议直接上传图片文件

通过平衡采样机制使系统1的样本数量与系统2对齐：若系统1样本总数超过G，则随机下采样至G个样本；若小于G，则通过随机复制进行上采样至G个样本。

3.多智能体训练目标

转存失败，建议直接上传图片文件

MARS系统中基于多智能体强化学习的GRPO算法演示

在获得来自两个系统的平衡样本后，采用扩展的GRPO框架对系统1与系统2进行联合优化。两个系统的训练样本构成具有显著差异：

系统2：样本包含完整的推理上下文。其中在计算损失时将系统1输出中的 token进行掩码。
系统1：样本为装箱算法生成的输入及其对应输出组成的对。

整体训练目标结合了两个系统的损失函数：

转存失败，建议直接上传图片文件

对于每个系统，应用GRPO目标函数：

转存失败，建议直接上传图片文件

这种联合优化方法使得两个系统能够在保持其协同框架中专有角色的同时，实现性能的同步提升。

实验

1.HLE基准主要实验结果

转存失败，建议直接上传图片文件

MARS在所有类别中取得了7.38%的平均准确率，相较于基础模型(Qwen2.5-7B-Instruct)实现了3.86%的显著提升。值得注意的是，MARS优于所有其他开源模型及推理方法，包括基于更大参数模型的方案。

尽管像OpenAI Deep Research这样的专有模型在整体性能上仍保持领先，但MARS显著缩小了开源方案与商业解决方案之间的差距。MARS与Claude 3.7 Sonnet及o1等专有模型的性能差距很小，考虑到MARS仅采用较少参数的模型，这一成果更具意义。

2.知识密集型推理任务主要结果

转存失败，建议直接上传图片文件

MARS在所有基准测试中优于基线方法，且在全谱系推理复杂度上实现性能增强（从简单事实查询到复杂的多步问题）。通过优化系统1高效信息处理与系统2深度推理能力之间的协作机制，MARS在保持计算效率的同时，有效利用了外部知识源。