前言
做科研的人都懂,一个图示从想法到完成,比写正文还折腾。逻辑结构、数据精确、风格规范——三点缺一不可。单模型生成 AI 往往图漂亮但逻辑错,逻辑对了又不美观,或者比例全跑偏。
PaperBanana 解决了这个问题,而且效果真的不错。它做对的核心正是 把任务拆成多个角色,让 AI 小团队协作。
传统 AI 的局限
很多人以为,用大模型直接生成图片就行了。但科研图示不同于普通插画,它不仅要 准确表达逻辑,还要 保证数据精确,最终还要符合学术期刊审美。
单模型一次搞不定三件事,结果不是图漂亮但逻辑全错,就是逻辑对了但风格土得掉渣,而且基本都是数字比例全跑偏。
这就是科研图示的痛点,也是 PaperBanana 这类技术方案出现的理由。
PaperBanana 的五角色协作
PaperBanana 的设计理念是:把生成任务拆成五个职能,每个角色专注最擅长的事情,然后协作迭代。
可视化流程图
1. Retriever — 灵感板
Retriever 从构建好的参考数据库中找出最相关的示例。
它关注 视觉结构匹配,保证后续生成有靠谱的布局参考。
想象一下,设计师先看模板再画图,就是 Retriever 的工作。
2. Planner — 骨架设计师
Planner 是核心大脑。它把论文描述和图示目标转化为详细图示计划,包括:
-
图示组件(节点/模块)
-
组件之间的逻辑关系和箭头方向
-
空间布局建议
-
标签、注释等
Planner 的核心是给图示提供骨架,让生成不能随意乱画。
3. Stylist — 美学指导
有了骨架,Stylist 来负责颜值。
它根据参考样例提取颜色、字体、线条粗细和形状,把 Planner 的输出优化成符合期刊标准的版本。
NeurIPS、Nature 的图示风格都不一样,Stylist 让生成的图符合学术规范。
4. Visualizer — 执行者
Visualizer 根据规范化计划生成图示:
-
方法图示 → 用高质量图像生成模型渲染
-
数据图表 → 输出 可复现的 Matplotlib 代码
这意味着生成图示不仅好看,还能直接用作科研素材,可复现、可修改。
5. Critic — QA/闭环
Critic 是闭环的关键,它检查图示是否忠实反映文本、是否清晰、是否符合风格规范。
如果不满意,会提出修改建议,让 Planner/Visualizer 再迭代。通常 2–3 轮就能得到高质量图示。
为什么多角色协作有效?
对比单模型端到端生成,PaperBanana 有三大优势:
-
参考驱动:Retriever 提供结构与风格样例,让生成更可靠
-
分工明确:逻辑、风格、渲染分开,避免大模型黑箱生成的混乱
-
闭环自检:Critic + 迭代,让图示质量可控
换句话说,这是 AI 助力科研图示的一次 流程创新。实验中,PaperBanana 在忠实度、可读性和美观度上都明显优于 baseline。
如果你对这个场景的设计感兴趣,我整理了整套 Prompt,下方获取 👇
延伸价值
这种多角色协作模式,不只适用于学术图示。
在流程图、实验设计图,教学演示图,数据可视化自动生成,甚至在代码生成、决策规划等复杂任务中,多 Agent 协作也更可靠。