零、前言
一、操作指南
国内直接访问地址:sass.xiaoxuzhu.cn/
点击【新系统登录】
注册后登录即可。
选择 Nano-Banana-Pro 大模型
二、实战
它最近在 AI 圈真的火到不行,但说实话——被低估得有点狠了 😏
大家都拿 Nano Banana Pro 去卷网红图的时候,我反手用它干了点“正经事”:搞科研。 结果直接给我整不会了。
它画出来的方法图,把我过去三年手工绘图的水平按在地上反复摩擦。一点不夸张。
做科研的都懂,画图就是个时间黑洞👇
- 逻辑结构怎么都对不齐
- 模块越画越乱
- 配色永远像 PPT 新手
- Poster 熬一天,导师只看一眼就开始皱眉
那种“代码能跑,图死活画不好”的日子,我只能说——到头了 🫠
我这次直接让 Nano Banana Pro 覆盖了科研绘图里最核心的 3 个高频场景:
- 方法图(Method):逻辑清不清,一眼就看出来
- 实验图(Experiment):数据像不像正经论文
- 示意图(Concept / Idea Figure):抽象想法能不能被看懂
测完之后我只有一个感受: 👉 这是对传统科研绘图工具的降维打击。
它的出图水准,明显就是冲着 NeurIPS / ICLR 的审稿审美 去的。不是那种“看着还行”,而是“放论文里也不违和”。
文末我还给大家整理了一套 「万能科研绘图 Prompt」, 不想看完整测评的,直接拉到最后抄作业就行 ✍️
第一个测试我也没留手,直接上硬菜:Cambrian-S。
这篇论文阵容豪华到离谱(LeCun + 李飞飞 + 谢赛宁),但方法部分偏偏缺了最关键的一张:全局架构总览图。 结果就是——文本怎么进、视觉怎么融、Mamba-Transformer 的主干怎么接,全靠读者自己在脑子里拼流程,读完感觉像拆盲盒😅
所以我干脆把论文的方法描述按执行顺序拆开,整理成一份结构化的模块清单。 然后直接扔给 NBP:不给草图、不给提示图,就看它能不能从文字把整套结构“搭”出来。
MAIN ARCHITECTURE (from the Method section):
1. Inputs:
- Image frames I ∈ ℝ^{H×W×3}
- Instruction prompt p
2. Encoders:
- Image Encoder:
• Extracts visual feature map F_i from input images.
- Text Encoder:
• Tokenizes prompt p into embeddings T ∈ ℝ^{T_p×D}
3. Feature Projection & Fusion:
- Visual Feature Projector:
• Projects F_i into V ∈ ℝ^{T_v×D}
- Multi-Modal Mixer:
• Concatenates V and T into Z ∈ ℝ^{(T_v+T_p)×D}
• Applies mixer layers to unify modalities
4. Core Backbone:
- Transformer Stack (L layers)
• Each layer contains:
– Multi-Head Self-Attention (MHSA)
– Feed-Forward Network (FFN)
– Residual + LayerNorm
5. Multi-Scale Routing Module:
- Occurs at predefined stages s₁ and s₂
- Token routing:
• Split Z into Active Tokens and Idle Tokens
• Only Active Tokens pass through deeper layers
• Idle Tokens are temporarily held
- Merge Unit:
• Idle Tokens rejoin Active Tokens after deeper blocks
6. Memory Retrieval Module:
- Memory Bank M ∈ ℝ^{N_m×D}
- Query generation: Q = Z_q W_q
- Key matching: attention weights = softmax(Q Mᵀ)
- Retrieval: R = weighted sum of memory vectors
- Fusion: Z ← Z + R (before block s₃)
7. Output Head:
- Task-specific head depending on target task:
• token outputs O ∈ ℝ^{T_o×D}
• or class logits
DATA FLOW:
Images → Image Encoder → Projector → V
Prompt → Text Encoder → T
V + T → Mixer → Z
Z → Transformer + Routing + Memory Retrieval → Output Head → Final output
30 秒后,我愣住了。
这已经不是“画对了”,而是真的画懂了。😎
双流输入的 Multi-modal Mixer、分层的 Memory Retrieval、Active / Idle Routing 的分叉路径…… 它不只是把结构摆清楚,还顺手对齐了那种顶会标配的审美:清爽、扁平、不用力过猛。
全程不用你操心线宽、网格、对齐这些脏活累活。 你只负责把逻辑讲明白,它就直接交付一张专业级成图。✨
架构图搞定之后,我直接上强度,挑战论文里最难搞的那种——概念图。
懂的都懂,这类图最折磨人: 画得太具体,像产品说明书; 画得太抽象,又容易变成“学术玄学”。🤯
我拿 Cambrian-S 里最经典的 Figure 1(五阶段认知框架)来试刀: 从语言 → 空间 → 世界模型,全是高度抽象的认知层级, 人自己画,没半天根本理不顺。
我的做法很简单: 把整张图的结构逻辑完整写进 Prompt, 让 NBP 按结构复刻、按风格升级。
结果嘛,只能说——稳得离谱。🔥
这才叫像样的设计啊✨ 低饱和的 Pastel 配色,看着就很舒服;留白干净利落,底部那个 3D 视频长廊一出来,空间感直接拉满。
放以前,这种图怎么也得找个专业设计师慢慢磨;现在用 NBP,30 秒直接出图,说实话有点离谱😅。
要是你的论文正好缺一张能镇场子的封面图,真的可以去试试它,省时又省心🚀
前两个我还能理解,但实验数据的折线图(Plot),它能画准吗?
我拿 Mamba-3 的 Figure 3 试了试水。只给了坐标轴含义、数据点和模型名称。
结果再次打脸:
扁平化、无玻璃反光、无渐变,线宽统一,配色克制到位。坐标轴标注清楚但不抢戏——画面干净得像强迫症开了挂。整体甚至比原论文更利落、更专业。
这已经不是“能看”的水平了,是那种直接放进投稿稿件里都不怯场的 “能投”级别。
更夸张的是:连最折磨人的大表格可视化我都敢硬上——我把 Mamba-3 的 Table 3 数据直接扔进去,也能被收拾得明明白白。😎✨:
它反手就甩给我一张清晰的柱状图:
配色够稳、比例到位,完全就是顶会级别的图表标准。 以前搞这种图,我在 Matplotlib 里调色能磨半小时;现在?30 秒搞定。📝 抄作业时间到:万能 Prompt 登场。
我实测了一圈,发现 NBP 的底层思路其实很清晰: 👉 你管逻辑(Text),它管审美(Visuals)。
为了不让大家再踩坑,我把经验整理成了一个**「科研绘图万能 Prompt 模板」**。 用法也很简单: 只要按顺序把论文内容往里填——方法、流程、实验、表格都行, 各种类型的图,都能从这个模板直接衍生出来,省时又省脑。 🚀
You are an expert ML illustrator.
Draw a clean, NeurIPS/ICLR-style scientific figure using Nano Banana Pro.
GOAL:
Create a professional, publication-quality diagram that exactly follows the
structure and logic provided in the MODULE LIST below.
Do not invent components, do not reinterpret, do not add creativity.
Strictly follow the logical flow.
GLOBAL RULES:
- Flat, clean NeurIPS style (no gradients, no gloss, no shadows)
- Consistent thin line weights
- Professional pastel palette
- Rounded rectangles for blocks
- Arrows must clearly indicate data flow
- No long sentences, only short labels
- Keep spacing clean and balanced
- All modules must appear exactly once unless specified
LAYOUT:
- Horizontal left → right layout (recommended)
- Or vertical top → bottom if modules are inherently sequential
- Align components cleanly in straight lines
- Respect the module order exactly as listed
MODULE LIST (FILL THIS WITH YOUR PAPER'S CONTENT):
1. Input(s):
- [Your input items]
2. Preprocessing / Encoding / Embedding:
- [Your modules]
3. Core Architecture / Stages / Blocks:
- [Your modules in exact order]
4. Special Mechanisms (optional):
- [Attention / memory / routing / dynamic paths]
5. Output Head:
- [Your output block]
NOTES (Optional but useful):
- Specify any required two-branch or multi-branch flow
- Specify “A and B must merge here”
- Specify “keep this as a single tall block with submodules”
- If experimental plot → replace section above with structured numbers
STYLE REQUIREMENTS:
- NeurIPS 2024 visual tone
- Very light background
- Text left-aligned inside blocks
- Arrows short and clean
- Use consistent vertical spacing
Generate the final diagram.
要是你正被 Deadline 按在地上摩擦,或者被 Rebuttal 里一堆“这个图再改改”的意见搞到心态爆炸,真的强烈安利你去试一下 😵💫 用过一次你就懂了,它省下来的不只是时间,是真的在救命。 科研本来就够难了,画图这种苦活累活,放心交给 AI 就完事了 🤖✨
三、感受
好用的功能太多太多,我就不在这个一一列举了,有兴趣的可以自行尝试。
有提供免费的授权码可体验~
有提供免费的授权码可体验~
有提供免费的授权码可体验~
私信虚竹哥,获取体验码~ 国内可直接使用~
我是虚竹哥,目标是带十万人玩转AI。