科研图示难产？看看Agent多角色分工机制探索 PaperBanana 如何通过多 Agent 协作机制解决科研图示生成

前言

做科研的人都懂，一个图示从想法到完成，比写正文还折腾。逻辑结构、数据精确、风格规范——三点缺一不可。单模型生成 AI 往往图漂亮但逻辑错，逻辑对了又不美观，或者比例全跑偏。

PaperBanana 解决了这个问题，而且效果真的不错。它做对的核心正是 把任务拆成多个角色，让 AI 小团队协作。

传统 AI 的局限

很多人以为，用大模型直接生成图片就行了。但科研图示不同于普通插画，它不仅要 准确表达逻辑，还要 保证数据精确，最终还要符合学术期刊审美。

单模型一次搞不定三件事，结果不是图漂亮但逻辑全错，就是逻辑对了但风格土得掉渣，而且基本都是数字比例全跑偏。

这就是科研图示的痛点，也是 PaperBanana 这类技术方案出现的理由。

PaperBanana 的五角色协作

PaperBanana 的设计理念是：把生成任务拆成五个职能，每个角色专注最擅长的事情，然后协作迭代。

可视化流程图

1. Retriever — 灵感板

Retriever 从构建好的参考数据库中找出最相关的示例。

它关注 视觉结构匹配，保证后续生成有靠谱的布局参考。

想象一下，设计师先看模板再画图，就是 Retriever 的工作。

2. Planner — 骨架设计师

Planner 是核心大脑。它把论文描述和图示目标转化为详细图示计划，包括：

图示组件（节点/模块）
组件之间的逻辑关系和箭头方向
空间布局建议
标签、注释等

Planner 的核心是给图示提供骨架，让生成不能随意乱画。

3. Stylist — 美学指导

有了骨架，Stylist 来负责颜值。

它根据参考样例提取颜色、字体、线条粗细和形状，把 Planner 的输出优化成符合期刊标准的版本。

NeurIPS、Nature 的图示风格都不一样，Stylist 让生成的图符合学术规范。

4. Visualizer — 执行者

Visualizer 根据规范化计划生成图示：

方法图示 → 用高质量图像生成模型渲染
数据图表 → 输出 可复现的 Matplotlib 代码

这意味着生成图示不仅好看，还能直接用作科研素材，可复现、可修改。

5. Critic — QA/闭环

Critic 是闭环的关键，它检查图示是否忠实反映文本、是否清晰、是否符合风格规范。

如果不满意，会提出修改建议，让 Planner/Visualizer 再迭代。通常 2–3 轮就能得到高质量图示。

为什么多角色协作有效？

对比单模型端到端生成，PaperBanana 有三大优势：

参考驱动：Retriever 提供结构与风格样例，让生成更可靠
分工明确：逻辑、风格、渲染分开，避免大模型黑箱生成的混乱
闭环自检：Critic + 迭代，让图示质量可控

换句话说，这是 AI 助力科研图示的一次 流程创新。实验中，PaperBanana 在忠实度、可读性和美观度上都明显优于 baseline。

如果你对这个场景的设计感兴趣，我整理了整套 Prompt，下方获取 👇

延伸价值

这种多角色协作模式，不只适用于学术图示。

在流程图、实验设计图，教学演示图，数据可视化自动生成，甚至在代码生成、决策规划等复杂任务中，多 Agent 协作也更可靠。

科研图示难产？看看Agent多角色分工机制

前言