微软多模型协作AI研究技术解析本文介绍了某机构推出的两种多模型深度研究系统：Critique和Council。通过让GP

某机构发布了两种新模式，将GPT和Claude配对使用，以提高AI研究的质量。

Critique 让模型相互协作，而 Council 让模型并行工作，同时由第三个“评审”模型找出差异。

这种双模型工作流程解决了单一模型AI研究中存在的幻觉、引用薄弱等问题。

某机构周一为其Copilot的 Researcher 工具推出了两项新功能——名为 Critique 和 Council——它们将某机构的GPT和某机构的Claude按顺序用于同一研究任务。根据某机构针对行业基准的测试，其结果得分高于该测试中所有系统，包括顶级AI公司的模型。

某机构解释：“Critique 是一种专为复杂研究任务设计的新型多模型深度研究系统。它将生成与评估分离，并利用来自前沿实验室（包括某机构和某机构）的模型组合。一个模型主导生成阶段，规划任务、迭代检索并生成初始草稿，而第二个模型专注于审查和优化，在最终报告生成前扮演专家评审角色。”

Critique 旨在解决的基本问题是：当前的AI研究工具都采用相同的工作方式。用户提问后，单个模型规划搜索、梳理来源、撰写报告并返回。该模型独自完成所有工作，无人核查。

这可能导致幻觉、引用错误、虚假或不准确的主张等。

Critique 将该工作流程一分为二。GPT 处理第一阶段——规划研究、提取来源并撰写初始草稿。然后 Claude 作为严格的编辑介入，审查报告的事实准确性、引用质量以及答案是否真正回应了问题。只有经过评审后，最终报告才会到达用户手中。某机构表示，角色最终也可以反过来运行（Claude起草，GPT评审），但目前还是GPT先行。

在 DRACO 基准测试（涵盖医学、法律、技术等10个领域的100项复杂研究任务的标准化测试）中，启用 Critique 的 Copilot 得分为57.4分，而某机构的 Claude Opus 4.6 单独得分为42.7分。某机构的组合系统比次优结果高出近14%。

最大的提升体现在分析广度和呈现质量上，事实准确性也有显著提高。

第二个功能 Council 针对同一问题采取了不同方法。它不是让一个模型评审另一个模型的工作，而是让 GPT 和 Claude 同时运行，并将它们的完整报告并排放置。然后第三个“评审”模型读取两份报告，并撰写一份摘要，说明两个AI在哪些方面达成一致、在哪些方面存在分歧，以及每个模型捕捉到而另一个错过的独特视角。此前，用户需要手动比较不同的AI研究工具。

在 Critique 中，模型本质上是相互协作的；而在 Council 中，模型则是相互竞争的。

Critique 是 Researcher 中的默认体验，而 Council 需要用户从选择器中选取“Model Council”来激活并排模式。这两项功能目前仅面向已注册某机构 Frontier 计划（Copilot 最新功能的早期访问通道）的用户开放。用户需要拥有某机构 365 Copilot 许可证，并且必须注册 Frontier 才能使用。

某机构与某机构有数十亿美元的合作伙伴关系，但某机构的判断是，没有哪个单一模型能长期保持领先，真正的价值在于编排层——将任务路由到效果最佳的模型组合。FINISHED