今天我们来解读中国科学技术大学与 Metastone Technology(元石科技)联合发布的最新论文《FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents》。该框架针对 Deep Research 任务的核心痛点 ——Context Window 硬限制,提出了基于文件系统的双智能体框架,在学术 DeepResearch Bench 与商业 DeepConsult 双权威基准测试中拿下 SOTA 效果。
论文与开源仓库地址
github.com/Ignoramus08…https://github.com/Ignoramus0817/FS-Researcher
框架结构
FS-Researcher 的核心创新,是用文件系统构建了一个容量无上限的 Persistent WorkSpace( 持久化工作空间),把原本占用 Context Window (上下文窗口)里原始资料、智能体状态,工作日志全部存储到文件系统中,释放了充足的上下文空间。在此基础上,文章是通过三大创新设计,做到资料收集与文章写作的高效协同。
一、框架基础:基于文件系统的 Persistent WorkSpace
这是整个框架的基石,相比于传统方案要么把原始信息全塞进上下文,要么对信息做有损压缩,始终受限于上下文窗口的硬限制;而 FS-Researcher 通过外接知识库,拥有了无限的Context Window。
二、Dual-Agent(双智能体)
相比于使用一个模型包揽 DeepResearch 的全部工作,框架将深度研究任务拆分为信息搜集和报告写作两个完全独立的阶段,分别由两个专用智能体负责,彻底解决单智能体上下文争抢、token budget有限导致过早停止收集信息的问题。
- Context Builder(上下文构建智能体),核心职责是:基于研究主题,通过网页搜索、内容读取工具,收集、提炼信息,构建一个层级化、带引用溯源的知识库,全程不涉及报告写作。
- Report Writer(报告写作智能体),核心职责是:完全基于 Context Builder 建好的知识库(全程关闭网页搜索工具,保证所有内容都来自已沉淀的证据),按需加载对应信息,逐节完成报告写作。
- **为什么必须是双智能体?**核心原因有两点:
- 单智能体需要在同一个会话里同时做网页浏览、信息提炼、报告写作,持续竞争上下文窗口,导致两个环节都无法分配足够的 token 预算,最终信息收集不充分、写作深度不足;
- 单智能体极易出现「过早合成」的问题:还没完成充分的证据收集,就开始撰写报告,最终内容浅、论据不足,也就是大模型在长程任务中常见的 “偷懒” 问题。双智能体解耦后,两个智能体可以独立分配计算资源、独立迭代,保证证据收集阶段可以无上限地沉淀信息,写作阶段可以专注于内容合成与深度分析,互不干扰。
三、Structured Knowledge Base(层级化结构化知识库)
这是 Context Builder 的核心产出,也是突破上下文窗口的关键载体,解决了传统方案信息零散、无法按需调取、溯源困难的问题。
为什么必须采用结构化设计?
核心原因有两点:
- 按需调取,彻底规避上下文溢出:Report Writer 写作时,只需要加载对应章节的相关笔记文件,无需把整个知识库塞进上下文,从根本上避免了上下文溢出的问题;
- 可追溯、可迭代,直接决定最终报告质量:每一条信息都附带对应的原始来源引用,同时支持多轮迭代补充信息、修正错误。
四、Section-wise Writing(逐节分段写作)
区别于传统的一次性生成整篇报告,框架采用「先写大纲→单会话只写一个章节→章节级自检→全报告终检」的多会话写作流程,论文消融实验验证,取消逐节写作后,模型 RACE 综合得分会出现显著下降。
核心优势
- 让模型注意力高度集中,单会话仅需聚焦一个章节的内容,保证分析深度,避免一次性长文本生成带来的内容空洞、逻辑混乱问题;
- 双级自检机制保障内容质量,章节级自检聚焦内容完整性、论据匹配度、格式规范,报告级自检聚焦整体逻辑、指令遵循度、内容完整性;
- 支持跨会话迭代优化,无需因单个章节的问题重写整篇报告,大幅提升内容优化效率。
方案局限性与可优化方向
一、论文官方提出的核心局限性
FS-Researcher 的效果强依赖于基础模型的能力,对模型的多轮规划、工具调用、文件系统操作能力有较高要求:对于参数量较小、能力较弱的基座模型,难以发挥框架的完整能力。
二、个人实测后的可优化方向
在本地基于开源仓库完成实测后,我认为方案在内容质检环节还有可优化的空间,核心问题与改进思路如下:
- 实测发现的问题:论文中设计了章节级与报告级双自检机制,但在实测过程中,使用 GPT-5 基座完成多个测试 case 时,均未出现段落质量不合格被回滚重写的情况。核心原因可能是:大模型对自己生成的内容有较强的 “自宽容性”,很难客观判定自身产出内容的质量缺陷,导致自检机制的约束性不足。
- 可落地的改进方向:建议将内容质检环节的上下文隔离,引入独立的质检智能体,而非让写作智能体自己做自检。拆分写作与质检的职责,让无前置上下文偏好的独立智能体完成客观质检,设定明确的量化阈值,评分不达标的章节直接反馈修改意见、打回重写,彻底解决 “自审自审不出问题” 的缺陷。
本人非论文作者,以上仅为阅读论文与实测后的观点分享,欢迎大家在评论区交流讨论。