把文章配图这件事,做成一个能稳定输出个人风格的自动化 skill

32 阅读10分钟

01-auto-illustration-skill-hero.png

前言:写文档很好用,但纯文字不够

相信很多人都喜欢用 Markdown 来写内容:技术方案、产品文档、读书笔记、公众号文章初稿等等。

它的语法简单,结构清晰,很容易上手。但是写到最后你会发现:

文字能讲清楚逻辑,但一旦通篇都是字,很容易太枯燥,也很难把「关系、对比、流程」留在读者脑海里。

一张好的配图,往往比一段解释更能让人记住重点。

对技术博客来说,通篇文字也能成立;但公众号的阅读场景更碎片,配图几乎是必需品:

让读者一眼抓到结构与重点,也顺便把首屏的「字墙感」降下来。

02-text-wall-vs-visual-structure.png

问题也随之出现:

公众号配图不是写完文章顺手就能完成的小活,而是一整套重复劳动。


我的痛点:配图慢、反复说、还很难复用

前两天我在给自己的公众号文章配图,流程其实很简单:

先通读一遍,想清楚哪里适合插图;再把那一段的上下文捋出来,决定这张图要表达什么;最后再去描述风格,开始一张张生成。

生图本身也不快,而且经常伴随这些成本:

  • 我的配图偏好停留在「个人感觉」,看到一张喜欢的想要参考的图,无法专业地提炼出它的设计风格与元素特点
  • 没有将我的偏好沉淀成 AI 能稳定复用的规范清单(背景、元素、配色、字体、留白)
  • 图片不合要求要多轮调整,来回消耗时间与 token
  • 换大模型、换窗口、换会话后,我又要从头重复一遍要求,再继续反复调

更要命的是,中间一旦遇到限流或模型切换,这些要求几乎要全部重说一遍,时间就这样被磨掉了。

这件事让我越来越确定:我们的个人要求里,其实有很大一部分都是 可以固化的个人偏好

就好比每次点奶茶都要备注「少糖少冰」,你换一家店就得重新讲一遍。

配图也是一样,最该先做的不是「多生几张」,而是先把这些要求固定下来。

03-repeating-cost-loop.png


目标:做一个「自动插图规划 + 逐图生成」的 skill,让配图变成流程

我想要的不是一个「一次性帮我配图」的提示词,而是一套可复用的 skill,目标很明确:

目标 1:让 AI 先总结我的参考图风格。

包括背景不要太白、需要淡网格或点状纹理衬托、关键元素配色要更鲜明、文字极少且不写提示语句。

目标 2:让 AI 自动分析文章该在哪些位置插图,并写回占位注释。

整篇控制 5 张以内,包含一张头图,并把每张图的意图、插入位置、文件名、alt写清楚。

目标 3:支持「先规划,再逐图生成」。

每次只生成 1 张图,生成后立刻回写,把占位注释替换为图片引用。

我最后把它收敛成一个已经能直接用的 skill:/wechat-illustration-planner

你可以把它理解成两段式流程:

先让模型基于上下文做插图规划,再把每一张图的生成任务拆出来逐张完成。

总的来说,我心里面想要的配图流程,大概就是三步:

先规划,再逐张生成,最后回写到文章里。

04-plan-generate-rewrite-pipeline.png


提前准备:只需要 4 样东西

准备并不复杂,我当时只用到了这些:

  • 一个带 Plan / Agent 工作流的 AI 编辑器(例如 Cursor
  • 一个放置 skills 的工程仓库
  • 一篇已经写好的文章(如果是 Markdown 排版会更顺手)
  • 一张你喜欢的插图风格参考(用来固化审美与风格约束)

如果你脑子里的需求蓝图还不是很清晰,可以先用 Plan 模式在 AI 的协助下生成更加完善的实施方案。后面在实现这个 skill 的时候,会省很多返工。


skill 实现过程:从「流程」到「可复用的文件」

下面是我从 0 到 1 把它做出来的过程:AI 基本开着「智驾」在前面跑,我只负责给方向、并且确认每一步的实现情况,vibe coding 地往前推进,没花太多时间就跑通了。

第一步:用 Plan 模式把流程先定下来

我当时先在 Cursor 里跟 AI 大致描述我脑海里期望这个 skill 的雏形:

它最终要帮我完成什么事情,我期望它是以什么步骤完成的。

Plan 模式下,AI 就会输出一份基于我的描述进一步补齐完善的执行方案。

把我的需求拆解成几个步骤,并把每一步的输入输出都明确下来:

职责边界、输入输出格式、执行步骤,都在这里定下来。

05-screenshot.png

这份方案我会先在 Plan 里过一遍,确认执行步骤和每一步的输入输出都没问题。

确认完就可以切回 Agent 模式,让 AI 按这份计划开始把这个 skill 实现出来。

总的来说,在真正动手之前,我们先把「要做什么」拆成几个能立刻落地的小块:

  • 输入是什么
  • 输出是什么
  • 先做规划还是先做生成
  • 每一步需要哪些硬约束(比如 16:9、文件命名、每次只生成 1 张)

这个过程其实有点像搭乐高前先把说明书翻一遍:先看成品长什么样、把零件分好类,再按步骤一页页往下搭。

一开始我脑子里只有个模糊的画面:大概想搭出什么样子,但具体先装哪块、后装哪块,其实说不清楚。

Plan 模式就是把这种模糊感落实成一份说明书:先做什么、后做什么、每一步要交付什么,都能在这里被写清楚。

这样你手里就有了一份可执行的步骤图,后面真正开始实现时,就不太容易跑偏。

06-lego-plan-manual.png

当你能把流程拆到「下一步是什么」时,skill 的实现才真正开始变得稳定。

我当时用 Plan 模式先把「规划 → 逐图生成 → 回写」这条链路拆成待办清单。你会发现它并不复杂,但足够让后续的实施过程有了清晰边界。

07-screenshot.png

第二步:检查并细调细节,尤其是「风格规则」

我觉得 skill 最容易翻车的点,通常不是流程,而是是否满足你期望的风格。

比如我后来明确加了这些硬约束:

  • 背景不要过白过浅,用和谐浅渐变或淡网格、点状纹理衬托元素
  • 关键元素配色要更鲜明,主色与辅色对比清晰,突出重点
  • 图里只允许中文短标签,技术术语保留英文原名,且不写长句子
  • 不写提示语句或操作指令,只写概念与结论型短语

刚开始我没把这些约束写清楚,生成出来的图会丑丑的,很不形象,而且夹带大量英文长句。类似下面这种效果:

08-img-before.png

把规则写得更具体之后(背景、纹理、主辅色对比、少文字、中文短标签),同样的内容重新生成,就会更接近「一眼能懂」的视觉表达。上面的图片经过优化之后的效果如下:

09-img-after.png

这也是我想强调的一点:你花时间写下来的不是「提示词」,而是一份可复用的规范清单。规则越清晰,后面返工越少,生成越快,也更省 token。

10-style-guide-rule-card.png

AI 帮我把「不要太寡淡、要有浅渐变/纹理衬托、关键元素更鲜明、文字极少」这类偏好,从口头感觉收敛成可以写进规则的约束,大概是下面这样。

11-screenshot.png

接着 AI 会自动把这些约束更新到 style-guide.md 的模板里,变成每次都能被复用的生成规范。

这样就算换模型、新开对话窗口,风格也依然是你想要的。

12-screenshot.png

第三步:把 skill 放进仓库的 .cursor/skills/ 目录,开始跑通

接下来就可以开始验证 skill 的效果。

wechat-illustration-planner 为例,skills 的目录结构一般会长这样:

  • .cursor/skills/wechat-illustration-planner/SKILL.md
  • .cursor/skills/wechat-illustration-planner/references/format.md
  • .cursor/skills/wechat-illustration-planner/references/style-guide.md

你不需要一开始就把所有细节写得很完美,先让它能跑起来,用真实文章去发现问题,再逐步优化。

第四步:在项目里建一个 test/ 目录,用真实文章验证

我会在仓库里新增一个 test/ 目录,把要测试的文章放进去,然后新开一个聊天窗口,对大模型说:

「帮我规划文章插图」

这时候 AI 就会在我的文章中输出插图规划,并把类似下面的占位注释写回我的 md 文件中:

<!-- TODO: 插图01 | 意图: ... | 位置: 放在 ## 某某标题之后 | 文件名: 01-xxx.png | alt: ... -->

接下来当你对 AI 说「生成第 01 张图」时,它会按这个 skill 约定的流程来做事:

先生成图片,然后把这条 TODO 注释回写替换成真正的图片引用(![alt](xx.png))。

如下图所示,就是替换发生的位置:上面是原来的 TODO 注释,下面是替换后的图片引用。

13-image-created.png

先规划再生成的好处是:你可以先把插图位置与意图确认下来,不用浪费生成图片消耗的 token。

第五步:对不满意的图片效果继续迭代 skill,直到稳定

当对某张图不满意时,不要把修图要求堆在当前对话里,而是回到 skill 的规则里改。

因为你真正想要的是下一次也能自动做对,而不是只在这一次把它改对

第六步:把 skill 放到个人目录的 .cursor/skills/,实现全局可用

当你在仓库里跑顺之后,再把 skill 放到个人目录下的 .cursor/skills/,它就能全局使用。

这一步做完,你会明显感觉到:配图从「项目内的一次性操作」变成了「你自己的工作流能力」。

第七步:生成过程中也可以切换 model

只要把想要的风格规范写得足够完善,即使切换模型、甚至用 Auto 模式生成,效果也基本上是我想要的。

如果对某些图片质量要求更高,比如想做封面图,我更倾向用 GPT-5.2 来生成,通常更稳定、更细腻。


总结:把配图变成可复用的规则,而不是一次性提示词

回头看,我做的事情其实很简单:

把「配图」从一个临时任务,变成一套可复用的规则与流程。

你不需要追求一次写出完美的 skill。

先让它能规划、能落占位、能一张张生成并回写,

然后用真实文章持续打磨专属你自己的风格规范。

到这里其实已经够用了。

对于我自己来说,整体的文章配图时间,从一开始可能要花 2 个小时去规划、生成、细调,现在只需要 10 分钟左右,而且还能保证都是我想要的风格。

剩下的提升空间,就看你愿意投入多少「审美与规则」去换取长期稳定的产出。

14-from-once-to-workflow-capability.png


感谢您的阅读。

这里会持续记录我对技术、工程实践与新趋势的思考,可关注微信公众号 前端Fusion 获取后续更新。

如果您喜欢这篇文章,欢迎点赞或分享。

分享底图_压缩.png