AutoFigure-Edit：论文方法描述直接生成可编辑矢量图AutoFigure-Edit 是一款将论文方法描述自动

AutoFigure-Edit：论文方法描述直接生成可编辑矢量图

01 · 读论文时，你脑子里的那张图02 · 问题的本质：生成 vs 编辑03 · 四阶段流水线：每一步在做什么04 · 风格迁移：让AI模仿你的参考图05 · 在线体验：deepscientist.cc 能做到什么程度06 · 实验设计：FigureBench基准07 · 局限性：borderline的七个理由08 · 工程完整性：开源的正确姿势09 · 启发：AIGC解耦思路的其他迁移方向

01 · 读论文时，你脑子里的那张图

读论文的方法部分，你有没有过这种体验？文字描述读完了，脑子里还是拼不出那张流程图到底长什么样。 "我们将输入依次经过编码器层、注意力机制层、解码器层，最后通过全连接层输出。"读到这里，有多少人能在脑子里准确还原出那张图的结构？方框还是圆角矩形？编码器和解码器是上下排列还是左右排列？注意力机制是单独一个模块还是嵌入在每层里？虚线箭头还是实线箭头？这个过程既慢，又容易理解错。更麻烦的是，不同作者画图的风格完全不一样。有的用灰底，有的用蓝底，有的加了阴影，有的什么都不加。换成另一篇论文，又是另一套视觉语言。传统解法是：用PPT或者Illustrator手画一张。换风格要从头来，每次画完它就是一张位图，想改个颜色都要重新来过。 AutoFigure-Edit 想解决的就是这个问题：扔一段方法描述进去，出来一张矢量图，所有部件都能单独拖拽、修改颜色、改文字。不是位图，是活着的SVG。

02 · 问题的本质：生成 vs 编辑

在讲AutoFigure-Edit的技术方案之前，我想先说清楚这个问题本身的结构，因为很多人容易混淆。科学图表生成，其实包含两个不同的需求：

**第一个需求：生成。**从零画一张图。我有一段方法描述，希望AI帮我画出来。这个任务的核心挑战是"理解"——AI要读懂文字，在脑子里构建出那张图的布局。

**第二个需求：编辑。**画完之后还能改。SVG格式的好处在于，它是矢量格式，每个部件都是独立的——文字是文字，形状是形状，箭头是箭头。编辑权意味着你可以单独修改任何一个元素而不影响其他部分。

AutoFigure-Edit的核心贡献，是把这两个需求在同一条Pipeline里解决了。更准确地说，它把"生成"和"编辑"解耦了：先生成一个参考草图（位图），再把这个草图矢量化成SVG（可编辑）。这样LLM不需要懂SVG语法，只需要画得像。

AutoFigure两阶段框架

图1：AutoFigure（ICLR 2026）的两阶段框架——概念基础与布局生成 + 审美合成与文本后处理。这是AutoFigure-Edit的前身。

图1展示的是AutoFigure（ICLR 2026接收版本）的两阶段框架。它接受论文、综述、教科书、博客等长文本作为输入，通过"概念基础与布局生成"和"审美合成与文本后处理"两个阶段，输出最终的科学插图。

AutoFigure-Edit是AutoFigure的"Edit"版本——在生成之后，加了一个能把位图变成可编辑SVG的关键步骤。这是名字里"Edit"的真正含义。

03 · 四阶段流水线：每一步在做什么

AutoFigure-Edit的完整Pipeline分为四个阶段。我逐一拆解。

1草图生成：LLM先画一张"草图"

把论文方法描述扔给一个大语言模型。这里用的是长上下文理解能力较强的模型，因为论文方法描述通常不短，一段话里塞了很多信息。模型输出的不是代码，不是SVG，而是一张位图草图——像用手绘板快速勾的初稿。能看出来大概布局：有哪些组件，它们之间的关系是什么，箭头指向哪。为什么不让LLM直接生成SVG？因为SVG是一种精确的矢量描述语言，需要精确的坐标、路径数据、样式属性。LLM在生成这类结构化代码时容易"放飞自我"：要么语法错误，要么元素重叠，要么坐标错位。在这件事上，LLM的"创造力"反而是障碍。先生成一张草图，是更务实的选择——让LLM做它擅长的事（理解+创意），把它不擅长的事（精确坐标）留给后面的阶段。

2图标检测：SAM3把草图"拆开"

AutoFigure-Edit三阶段编辑流程

图2：AutoFigure-Edit的完整三阶段工作流——图像生成与分割 → 图标提取与优化 → SVG生成与组装。

草图出来了，但电脑还不认识里面有什么。这一步用SAM3（Meta开源的Segment Anything Model 3）来分割草图。给SAM3多个提示词，从不同角度描述草图里的各个部件——"这里有一个矩形框"、"这是一个箭头"、"这是一段文字标签"——SAM3负责把每个部件圈出来。所有重叠的检测结果合并去重，得到一组干净的部件区域。这一步的技术含量在于"多提示词融合"。单一提示词容易漏部件，或者把多个部件误识别为一个。多角度提示词能显著提高召回率，确保草图里每一个元素都被正确识别。

3SVG模板生成：给每个部件标好"槽位"

分割完了，知道草图里有几个部件了。但这些都是位图，没法改成矢量。 AutoFigure-Edit的解法是：提取每个部件的位置和尺寸信息，生成一张SVG"线框图"。每个位置有编号，但内容是空的——相当于一张标注好槽位的模板。模板风格是统一的AF标准占位符，颜色中性、线条规范。这个模板就是后续组装的"骨架"。

4组装与去背景：抠图塞进槽位

最后一步，用RMBG-2.0（专门做去背景的模型）把草图里每个部件从背景里干净地抠出来。为什么去背景重要？因为草图里的图标、形状是画在有背景的画布上的，直接嵌进SVG会保留原始背景，导致视觉污染。RMBG-2.0在处理科学图表这类复杂背景时效果相对干净，是这个流程里图标质量的关键保障。抠出来的透明部件塞进对应的SVG槽位，就得到了一张完整的矢量图——可以拖拽、修改颜色、改文字。

AutoFigure-Edit四阶段流水线

图3：AutoFigure-Edit的核心四阶段流水线——草图生成 → SAM3图标检测 → SVG模板生成 → 组装与风格迁移。

图3是这个Pipeline的完整概览。四个阶段各司其职：LLM负责理解（强项），SAM3负责定位（成熟CV），RMBG负责预处理（专用工具），SVG模板负责组装（精确格式）。每个工具干自己最擅长的事，串起来就是一条完整的工作流。

04 · 风格迁移：让AI模仿你的参考图

除了核心的四阶段Pipeline，AutoFigure-Edit还有一个亮点功能——风格迁移。用户可以给一张参考图（比如某顶会论文的方法图），系统提取那张图的视觉DNA：颜色、线条粗细、字体、阴影风格。然后把这个风格迁移到生成的图上。给一张NeurIPS论文图作为参考，输出的图就长得像NeurIPS的风格；给ICLR的图，输出就偏向ICLR风格。这个设计聪明的地方在于：它把"风格"从"内容"里解耦出来了。用户不需要重新描述内容，只需要指定"我要哪个风格"，系统自动迁移。极大的降低了用户的操作成本。 Style Transfer的技术价值在于：科研图的复用率其实很高。同一个框架图，可能出现在论文正文中、poster里、答辩PPT里、公司技术报告里。如果每次都从零画，风格不统一是常态。AutoFigure-Edit让"一次生成，多端复用，风格一致"变成了可能。

05 · 在线体验：deepscientist.cc能做到什么程度

AutoFigure-Edit已经搭了一个在线平台 deepscientist.cc，完全免费，无需配置环境，直接体验。

AutoFigure-Edit在线编辑界面

图4：AutoFigure-Edit的在线编辑器AutoFigure2 Canvas界面。包含AI自动生成、左侧图标资产库、右侧图标管理面板，以及底部的实时日志。

图4是在线编辑器的截图。界面的核心是一个类似Visio/Lucidchart的专业绘图工具，关键能力包括：

**左侧工具箱：**内置了丰富的图标资产库，按类别分类——basic（基本形状）、arrow（箭头）、flowchart（流程图）、electronics（电子元件）等，可以直接拖拽进画布。

**AI自动生成：**输入一段方法描述，AI自动生成一张带标准占位符的草图，并自动识别图标位置（如图中的"Core Framework"、"Automated Data Construction Pipeline"等模块，以及Qwen、Gemini、Phi-4等模型图标）。

**右侧资产面板：**列出图中使用的各个图标素材及其处理状态——ICON NO-BG（已去除背景的透明图标）和ICON RAW（原始图标）。

**底部日志面板：**实时显示系统运行信息，包括图标数量（"图标数量: 23"）、SVG保存路径、处理状态等。

整个编辑器把"AI生成"和"手动微调"无缝整合在一起。AI生成不满意，可以手动调整任何元素；手动画累了，交给AI接力。这才是工程上合理的交互方式。

06 · 实验设计：FigureBench基准

AutoFigure-Edit团队还发布了一个叫FigureBench的基准测试数据集，涵盖多种论文插图类型，用于评估生成质量。从GitHub README来看，AutoFigure-Edit在"可编辑性"这个维度上显著优于之前的方法——因为它输出的是原生SVG，不是位图转矢量那种有损转换。具体来说，他们在三个真实论文数据集上做了测试：

CycleResearcher

：AI科研论文生成系统，三种风格参考图
DeepReviewer

：深度评审框架，三种风格参考图
DeepScientist

：本地优先的自主研究系统，三种风格参考图

每个数据集用三种不同的参考风格（Style 1/2/3）做迁移，最终生成9组对比图。

图5：CycleResearcher的迭代训练框架图。左侧为AI生成的原始草图（位图），右侧为矢量化后的SVG——每个元素均可单独选中、拖拽、修改颜色和文字。

图5展示了CycleResearcher的一个生成案例。左侧是位图草图（带渐变和阴影的最终呈现效果），右侧是矢量化后的SVG——可以清晰地看到每个独立元素的边界框（虚线选中状态），说明这张图是"活的"，任何部分都可以单独编辑。

07 · 局限性：borderline的七个理由

AutoFigure-Edit不是一个完美的系统。在我看来，它有几个需要坦诚面对的问题。

问题一：评估标准有点取巧

对比实验主要围绕"能否生成SVG格式"这个维度，而不是"生成的图质量好不好"。这是两个不同的维度。比格式是比谁的输出更灵活，不一定是比谁的图更好看、更准确。如果主要贡献是"输出格式是SVG"而不是"生成的图质量更高"，这个创新有点薄。

问题二：消融实验不透明

去掉风格迁移效果差多少？SAM3换成别的分割模型行不行？LLM直接生成SVG不经过草图阶段行不行？这些关键信息在现有材料里看不到。如果某一阶段其实是冗余的，论文没有说清楚。

问题三：方法部分细节偏少

分割阶段怎么融合重叠部件？模板阶段的SVG是怎么预定义/程序生成的？LLM生成草图用了什么prompt？SAM3的多提示词策略具体是什么？这些关键信息读完还是模糊。对于一篇工程导向的论文，方法部分应该能让读者复现。

问题四：RMBG-2.0的局限性

RMBG-2.0在科学图表上去背景的效果文中说"干净"，但没有量化指标。科学图表的图标背景往往包含网格线、色块，不是纯色背景，RMBG在这种情况下的recall和precision没有具体数据。

问题五：SVG嵌入位图的问题

从案例图来看，最终SVG里嵌入的图标是抠出来的位图（ICON NO-BG），而不是真正的矢量路径。这意味着编辑能力只到"替换图标"层级，而不是"修改图标的形状"。这个边界的存在，论文没有明确说明。

问题六：风格迁移的质量上限

风格迁移提取的是浅层视觉特征（颜色、线条粗细），还是包含了更深层的布局偏好？如果参考图是一张NeurIPS风格的方法图，系统能否学到NeurIPS特有的配色体系和排版范式，还是只学到"灰色背景+蓝色方框"这种表面特征？

问题七：长文本输入的实际表现

摘要里提到"long-form scientific text"，但没有说具体能处理多长的文本输入。如果输入是一篇完整的方法章节（通常500-2000词），草图生成的质量是否稳定？有没有出现信息遗漏或者错误理解的情况？

08 · 工程完整性：开源的正确姿势

说完批评，也要说正向的东西。 AutoFigure-Edit的开源姿势值得很多学术工作学习：

| 内容 | 状态 | | --- | --- | | arXiv论文 | ✅ 已发布（2603.06674） | | GitHub代码仓库 | ✅ 完整开源（MIT License） | | FigureBench数据集 | ✅ HuggingFace开源 | | 在线体验平台 | ✅ deepscientist.cc免费使用 | | 项目演示视频 | ✅ YouTube可查看 | | 姐妹项目DeepScientist | ✅ ICLR 2026 Paper |

这不是那种"我发个arXiv链接算完了"的学术工作。代码、数据、演示、平台全部到位，用户今天就能用。这种工程完整性，在学术论文里越来越常见，但做得扎实的还是少数。同时，他们还有姐妹项目DeepScientist（ICLR 2026）——一个本地优先的端到端自主科研系统。AutoFigure-Edit是DeepScientist可视化流水线的一部分。这种"多个相关项目互相支撑"的生态式发展，比单点论文更有说服力。

09 · 启发：AIGC解耦思路的其他迁移方向

AutoFigure-Edit背后这个"LLM理解 + 专用工具执行"的解耦思路，我认为可以迁移到很多其他场景，而且可能比AutoFigure-Edit本身更有商业价值。

**方向一：PPT自动化生成。**传统方案是让LLM直接生成HTML/CSS代码来画PPT，结果往往是"排版失控、字体乱飞"。更务实的做法：LLM负责理解内容并生成幻灯片框架（文字内容、层级结构），然后用代码负责排版和美化，两个阶段分开。AutoFigure-Edit的四阶段Pipeline就是这种思路的教科书式实现。

**方向二：多模态模型取代SAM3。**现在GPT-4V、Gemini的分割能力已经相当强了。能不能省掉SAM3这一步，让多模态模型直接做分割和定位？如果这一步能简化，Pipeline从四阶段变成三阶段，延迟和部署成本都会显著降低。更重要的是，单一模型架构比多模型串联更容易优化和维护。

**方向三：图到图的风格迁移。**现在AutoFigure-Edit主要处理"文到图"，但科研场景里还有一个高频需求："我有一张参考图，想要类似风格的另一张图"。这个需求比"文到图"更普遍——科研人员往往已经有几张满意的图，只需要风格一致的更多张，而不是从零描述。这个方向如果做好，可能比文到图更有商业价值。

**方向四：视频分镜自动生成。**编剧写完剧本，AI自动生成分镜故事板（Storyboard），每个镜头是一张图。这是"理解→生成草图→矢量化"流程的视频版本，核心逻辑完全一样。

AutoFigure-Edit不是让人"Wow"的基础研究，但它是一个完整的、可用的工程系统。GitHub有代码，在线平台可直接体验，FigureBench数据集也开源了——这个姿势本身就值得很多学术工作学习。

研究的归研究，工程的归工程。能解决问题的工具，就是好工具。

至少现在，读论文的时候，我多了一个参照：下次要画方法图，不用从零手绘了。

共勉。

AutoFigure-Edit：论文方法描述直接生成可编辑矢量图