Agent 不睡觉之后,科研开始变成流水线了吗?

1 阅读8分钟

Agent 不睡觉之后,科研开始变成流水线了吗?

5 月中旬,GitHub 上一个名字很长的项目又更新了:Auto-claude-code-research-in-sleep,简称 ARIS。

名字翻译过来差不多是:自动让 Claude Code 在睡觉时搞研究。

听着有点离谱,但项目想做的事并不玄乎。它不是把一个模型包装成“AI 科学家”,然后让它凭空发明理论;它更像一套科研任务流水线:文献谁来扫,idea 谁来提,实验谁来跑,结果谁来审,论文草稿谁来改,都提前分好工。

这件事有意思的地方在这里:当 Agent 可以连续工作几个小时,甚至一整晚,科研里那些原本靠人硬扛的流程活,会不会慢慢被机器接过去?

这不是一段提示词,是一套工作台

ARIS 主仓库在 2026 年 3 月开源。到 5 月 15 日,它已经有约 9.4k Star近 900 个 Fork

它的论文页也登上 Hugging Face Papers,标题是“ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration”。页面显示论文在 5 月 4 日发布、5 月 6 日提交 ,并成为当日 Paper 榜单第一。

这些数字当然不等于“自动科研已经成功”。Star 不是审稿意见,榜单也不是录用通知。但它至少说明,一个方向正在被认真讨论:长任务 Agent 能不能进入真正复杂的知识工作?

ARIS 给出的答案很工程化。

它准备了 65+ Markdown 技能 ,覆盖文献、想法、实验、评审、写作、答辩;有 5 条端到端工作流 ;还有一套把实验结果、论文结论和引用逐层核对的审计链。

更重要的是,它没有把所有东西都锁死在某个单一工具里。Claude Code、Codex CLI、Cursor 都能接,OpenClaw 也有适配方案。

所以我更愿意把它叫作“科研操作台”。模型在里面干活,但真正决定它能不能跑长任务的,是外面这层流程、文件和审计机制。

ARIS 科研流水线

一晚上能干多少事

ARIS 把机器学习研究拆成一组固定动作。

先扫文献,整理已有工作;再生成候选 idea,检查新颖性;然后写实验计划,把计划变成代码和运行命令;实验跑完后,进入自动评审;最后才是论文草稿、图表、rebuttal。

典型流程大概是这样:

1. /idea-discovery:找文献,提 idea,做 novelty check

2. /experiment-bridge:把实验计划变成代码和部署步骤

3. /auto-review-loop:模拟审稿人,反复挑问题

4. /paper-writing:把结果、图表和叙事整理成论文草稿

5. /rebuttal:拆 review,生成回应草稿

这里最容易被忽略的设计,是文件。

ARIS 不太依赖“聊天记录里还记得什么”。它会把中间产物写成 IDEA_REPORT.mdEXPERIMENT_PLAN.mdEXPERIMENT_LOG.mdNARRATIVE_REPORT.md 这类文件。

这听起来很土,但很重要。

长任务最怕的不是模型慢一点,也不是它写得不够漂亮。真正麻烦的是跑了三个小时以后,只剩下一段顺滑总结,没人知道它到底看过哪些资料、改过哪些代码、根据什么实验下了判断。

文件化产物至少让这件事有迹可循。

别让同一个模型既写论文,又审论文

ARIS 最有辨识度的一点,是它把执行者和审稿人分开。

一个模型负责干活:查资料、写代码、跑实验、整理草稿。

另一个模型负责挑刺:看逻辑有没有跳步,实验有没有漏洞,引用有没有乱用,结论有没有超过证据范围。

项目里把这套机制叫 cross-model adversarial collaboration。说得直白点,就是别让同一个模型又当运动员,又当裁判。

这不是洁癖,是现实问题。

一个模型如果把实验解释写歪了,自己复盘时很可能沿着同一条路继续圆。它未必是在故意编,更多时候是被自己的叙事惯性带跑了。

所以 ARIS 倾向于让 Claude Code 做执行者,再让 GPT、Gemini、GLM 或其他模型来审。执行者交成果,审稿者从另一个模型家族的视角追问:这个 claim 有证据吗?这个实验能排除其他解释吗?这条引用真的支撑这句话吗?

跨模型协作架构

这很像真实科研里的合作和审稿。作者最熟悉自己的工作,也最容易看漏自己的盲点。外部审稿人不一定更高明,但他不在你的叙事里,反而更容易看见问题。

ARIS 想把这种外部质疑提前塞进流程,而不是等论文写完才补一轮形式化检查。

最危险的是“看起来很对”

长时间运行的 Agent 有一种很讨厌的失败方式:它不报错,也不崩溃,而是交出一份看起来很完整的东西。

有标题,有表格,有引用,有结论。读起来甚至挺像回事。

问题是,它可能只是把一次实验日志里的局部现象,写成了稳定规律;也可能引用了一篇真实论文,却拿来支撑它根本没证明过的观点。

这比直接报错麻烦多了。报错会让你停下来检查;一份漂亮但站不住的报告,反而容易让人点头通过。

ARIS 里很多审计设计,就是为了拦这种情况。

它把“结果能不能支撑结论”拆成几层:

  • experiment-audit:检查实验代码和评估逻辑
  • result-to-claim:判断实验结果能支持哪些 claim
  • paper-claim-audit:核对论文里的数字、比较和范围表述
  • citation-audit:检查引用是否存在,以及是否真的支撑当前语境

这部分不如“自动写论文”吸睛,却更接近严肃场景里的刚需。

Agent 最危险的时刻,往往不是它不会写,而是它写得太像真的。

新版本修 bug,也暴露了 Agent 工程的脆弱

ARIS 在 5 月 14 日发布 v0.4.6,修了两个很典型的问题。

一个是权限 bug。用户选择“工具调用前询问”的模式时,由于权限枚举排序问题,系统可能静默允许工具执行。

另一个是日期 bug。系统 prompt 曾把当前日期硬编码为 2026-03-31,后续出现的新论文、新资料,可能被模型误判为“未来信息”或 prompt injection。

这两个问题都不是模型笨造成的,却会直接影响整个 Agent 的判断和安全边界。

这也是我觉得 ARIS 值得观察的原因。它展示了长任务 Agent 的潜力,也把工程麻烦暴露得很清楚:权限、日期、上下文、工具调用、审计、恢复机制,任何一处处理不好,模型再聪明也会被带偏。

科研场景尤其放大这些问题。这里不只要求“能生成”,还要求每一步能追溯、能复核、能被质疑。

OpenClaw 真正该看的,是 Agent team

ARIS 和 OpenClaw / Agent team 的关系,不是“大家都能写论文”。真正相似的地方在于:Agent 正在从一个聊天助手,变成一组有分工的执行系统。

过去的 AI 编程助手,更像一个随叫随到的副驾驶。你问一句,它改一段;你指出 bug,它再修一下。

ARIS 展示的是另一种形态:执行者、审稿人、知识库、实验日志、引用审计、长期记忆一起工作。人的角色也跟着变化,从不断提示模型下一步做什么,变成设置目标、检查关键节点、决定哪些结论可以进入下一轮。

这对 OpenClaw 这类系统很有启发。长任务 Agent 不能只靠模型强,还得有工作空间、文件协议、权限边界、审计流程和可恢复的状态。

Agent team 的竞争力会越来越像一套操作系统,而不是一个聊天窗口。

科研会真的变成流水线吗

一部分会。

文献整理、实验矩阵、初版代码、评审模拟、数字核对、引用检查,本来就有很强的流程属性。交给 Agent 跑一晚,不违背科研规律,反而可能减少很多机械消耗。

另一部分不会。

什么问题值得问,什么假设值得冒险,什么实验结果只是噪音,什么结论会改变一个领域的理解,这些仍然需要人来判断。流水线能提高吞吐量,但它不会自动带来方向感。

所以 ARIS 更像“科研操作台”,不是“AI 科学家”。它把分散的步骤、文件、审稿和检查机制组织起来,让 Agent 在人不盯着的时候也能推进一部分可复核的工作。

Agent 不睡觉之后,科研不会自动抵达终点。

但科研路上的很多中间站,确实可能开始 24 小时营业。

附链接