微软多模型协作AI研究技术解析

4 阅读3分钟

某机构发布了两种新模式,将GPT和Claude配对使用,以提高AI研究的质量。

Critique 让模型相互协作,而 Council 让模型并行工作,同时由第三个“评审”模型找出差异。

这种双模型工作流程解决了单一模型AI研究中存在的幻觉、引用薄弱等问题。

某机构周一为其Copilot的 Researcher 工具推出了两项新功能——名为 Critique 和 Council——它们将某机构的GPT和某机构的Claude按顺序用于同一研究任务。根据某机构针对行业基准的测试,其结果得分高于该测试中所有系统,包括顶级AI公司的模型。

某机构解释:“Critique 是一种专为复杂研究任务设计的新型多模型深度研究系统。它将生成与评估分离,并利用来自前沿实验室(包括某机构和某机构)的模型组合。一个模型主导生成阶段,规划任务、迭代检索并生成初始草稿,而第二个模型专注于审查和优化,在最终报告生成前扮演专家评审角色。”

Critique 旨在解决的基本问题是:当前的AI研究工具都采用相同的工作方式。用户提问后,单个模型规划搜索、梳理来源、撰写报告并返回。该模型独自完成所有工作,无人核查。

这可能导致幻觉、引用错误、虚假或不准确的主张等。

Critique 将该工作流程一分为二。GPT 处理第一阶段——规划研究、提取来源并撰写初始草稿。然后 Claude 作为严格的编辑介入,审查报告的事实准确性、引用质量以及答案是否真正回应了问题。只有经过评审后,最终报告才会到达用户手中。某机构表示,角色最终也可以反过来运行(Claude起草,GPT评审),但目前还是GPT先行。

在 DRACO 基准测试(涵盖医学、法律、技术等10个领域的100项复杂研究任务的标准化测试)中,启用 Critique 的 Copilot 得分为57.4分,而某机构的 Claude Opus 4.6 单独得分为42.7分。某机构的组合系统比次优结果高出近14%。

最大的提升体现在分析广度和呈现质量上,事实准确性也有显著提高。

第二个功能 Council 针对同一问题采取了不同方法。它不是让一个模型评审另一个模型的工作,而是让 GPT 和 Claude 同时运行,并将它们的完整报告并排放置。然后第三个“评审”模型读取两份报告,并撰写一份摘要,说明两个AI在哪些方面达成一致、在哪些方面存在分歧,以及每个模型捕捉到而另一个错过的独特视角。此前,用户需要手动比较不同的AI研究工具。

在 Critique 中,模型本质上是相互协作的;而在 Council 中,模型则是相互竞争的。

Critique 是 Researcher 中的默认体验,而 Council 需要用户从选择器中选取“Model Council”来激活并排模式。这两项功能目前仅面向已注册某机构 Frontier 计划(Copilot 最新功能的早期访问通道)的用户开放。用户需要拥有某机构 365 Copilot 许可证,并且必须注册 Frontier 才能使用。

某机构与某机构有数十亿美元的合作伙伴关系,但某机构的判断是,没有哪个单一模型能长期保持领先,真正的价值在于编排层——将任务路由到效果最佳的模型组合。FINISHED