把文章配图这件事，做成一个能稳定输出个人风格的自动化 skill当我发现配图的痛点不在 AI 生图，而在个人风格复用时，

前言：写文档很好用，但纯文字不够

相信很多人都喜欢用 Markdown 来写内容：技术方案、产品文档、读书笔记、公众号文章初稿等等。

它的语法简单，结构清晰，很容易上手。但是写到最后你会发现：

文字能讲清楚逻辑，但一旦通篇都是字，很容易太枯燥，也很难把「关系、对比、流程」留在读者脑海里。

一张好的配图，往往比一段解释更能让人记住重点。

对技术博客来说，通篇文字也能成立；但公众号的阅读场景更碎片，配图几乎是必需品：

让读者一眼抓到结构与重点，也顺便把首屏的「字墙感」降下来。

问题也随之出现：

公众号配图不是写完文章顺手就能完成的小活，而是一整套重复劳动。

我的痛点：配图慢、反复说、还很难复用

前两天我在给自己的公众号文章配图，流程其实很简单：

先通读一遍，想清楚哪里适合插图；再把那一段的上下文捋出来，决定这张图要表达什么；最后再去描述风格，开始一张张生成。

生图本身也不快，而且经常伴随这些成本：

我的配图偏好停留在「个人感觉」，看到一张喜欢的想要参考的图，无法专业地提炼出它的设计风格与元素特点
没有将我的偏好沉淀成 AI 能稳定复用的规范清单（背景、元素、配色、字体、留白）
图片不合要求要多轮调整，来回消耗时间与 token
换大模型、换窗口、换会话后，我又要从头重复一遍要求，再继续反复调

更要命的是，中间一旦遇到限流或模型切换，这些要求几乎要全部重说一遍，时间就这样被磨掉了。

这件事让我越来越确定：我们的个人要求里，其实有很大一部分都是 可以固化的个人偏好。

就好比每次点奶茶都要备注「少糖少冰」，你换一家店就得重新讲一遍。

配图也是一样，最该先做的不是「多生几张」，而是先把这些要求固定下来。

目标：做一个「自动插图规划 + 逐图生成」的 skill，让配图变成流程

我想要的不是一个「一次性帮我配图」的提示词，而是一套可复用的 skill，目标很明确：

目标 1：让 AI 先总结我的参考图风格。

包括背景不要太白、需要淡网格或点状纹理衬托、关键元素配色要更鲜明、文字极少且不写提示语句。

目标 2：让 AI 自动分析文章该在哪些位置插图，并写回占位注释。

整篇控制 5 张以内，包含一张头图，并把每张图的意图、插入位置、文件名、alt写清楚。

目标 3：支持「先规划，再逐图生成」。

每次只生成 1 张图，生成后立刻回写，把占位注释替换为图片引用。

我最后把它收敛成一个已经能直接用的 skill：/wechat-illustration-planner。

你可以把它理解成两段式流程：

先让模型基于上下文做插图规划，再把每一张图的生成任务拆出来逐张完成。

总的来说，我心里面想要的配图流程，大概就是三步：

先规划，再逐张生成，最后回写到文章里。

提前准备：只需要 4 样东西

准备并不复杂，我当时只用到了这些：

一个带 Plan / Agent 工作流的 AI 编辑器（例如 Cursor）
一个放置 skills 的工程仓库
一篇已经写好的文章（如果是 Markdown 排版会更顺手）
一张你喜欢的插图风格参考（用来固化审美与风格约束）

如果你脑子里的需求蓝图还不是很清晰，可以先用 Plan 模式在 AI 的协助下生成更加完善的实施方案。后面在实现这个 skill 的时候，会省很多返工。

skill 实现过程：从「流程」到「可复用的文件」

下面是我从 0 到 1 把它做出来的过程：AI 基本开着「智驾」在前面跑，我只负责给方向、并且确认每一步的实现情况，vibe coding 地往前推进，没花太多时间就跑通了。

第一步：用 `Plan` 模式把流程先定下来

我当时先在 Cursor 里跟 AI 大致描述我脑海里期望这个 skill 的雏形：

它最终要帮我完成什么事情，我期望它是以什么步骤完成的。

在 Plan 模式下，AI 就会输出一份基于我的描述进一步补齐完善的执行方案。

把我的需求拆解成几个步骤，并把每一步的输入输出都明确下来：

职责边界、输入输出格式、执行步骤，都在这里定下来。

这份方案我会先在 Plan 里过一遍，确认执行步骤和每一步的输入输出都没问题。

确认完就可以切回 Agent 模式，让 AI 按这份计划开始把这个 skill 实现出来。

总的来说，在真正动手之前，我们先把「要做什么」拆成几个能立刻落地的小块：

输入是什么
输出是什么
先做规划还是先做生成
每一步需要哪些硬约束（比如 16:9、文件命名、每次只生成 1 张）

这个过程其实有点像搭乐高前先把说明书翻一遍：先看成品长什么样、把零件分好类，再按步骤一页页往下搭。

一开始我脑子里只有个模糊的画面：大概想搭出什么样子，但具体先装哪块、后装哪块，其实说不清楚。

Plan 模式就是把这种模糊感落实成一份说明书：先做什么、后做什么、每一步要交付什么，都能在这里被写清楚。

这样你手里就有了一份可执行的步骤图，后面真正开始实现时，就不太容易跑偏。

当你能把流程拆到「下一步是什么」时，skill 的实现才真正开始变得稳定。

我当时用 Plan 模式先把「规划 → 逐图生成 → 回写」这条链路拆成待办清单。你会发现它并不复杂，但足够让后续的实施过程有了清晰边界。

第二步：检查并细调细节，尤其是「风格规则」

我觉得 skill 最容易翻车的点，通常不是流程，而是是否满足你期望的风格。

比如我后来明确加了这些硬约束：

背景不要过白过浅，用和谐浅渐变或淡网格、点状纹理衬托元素
关键元素配色要更鲜明，主色与辅色对比清晰，突出重点
图里只允许中文短标签，技术术语保留英文原名，且不写长句子
不写提示语句或操作指令，只写概念与结论型短语

刚开始我没把这些约束写清楚，生成出来的图会丑丑的，很不形象，而且夹带大量英文长句。类似下面这种效果：

把规则写得更具体之后（背景、纹理、主辅色对比、少文字、中文短标签），同样的内容重新生成，就会更接近「一眼能懂」的视觉表达。上面的图片经过优化之后的效果如下：

这也是我想强调的一点：你花时间写下来的不是「提示词」，而是一份可复用的规范清单。规则越清晰，后面返工越少，生成越快，也更省 token。

AI 帮我把「不要太寡淡、要有浅渐变/纹理衬托、关键元素更鲜明、文字极少」这类偏好，从口头感觉收敛成可以写进规则的约束，大概是下面这样。

接着 AI 会自动把这些约束更新到 style-guide.md 的模板里，变成每次都能被复用的生成规范。

这样就算换模型、新开对话窗口，风格也依然是你想要的。

第三步：把 skill 放进仓库的 `.cursor/skills/` 目录，开始跑通

接下来就可以开始验证 skill 的效果。

以 wechat-illustration-planner 为例，skills 的目录结构一般会长这样：

.cursor/skills/wechat-illustration-planner/SKILL.md
.cursor/skills/wechat-illustration-planner/references/format.md
.cursor/skills/wechat-illustration-planner/references/style-guide.md

你不需要一开始就把所有细节写得很完美，先让它能跑起来，用真实文章去发现问题，再逐步优化。

第四步：在项目里建一个 `test/` 目录，用真实文章验证

我会在仓库里新增一个 test/ 目录，把要测试的文章放进去，然后新开一个聊天窗口，对大模型说：

「帮我规划文章插图」

这时候 AI 就会在我的文章中输出插图规划，并把类似下面的占位注释写回我的 md 文件中：

<!-- TODO: 插图01 | 意图: ... | 位置: 放在 ## 某某标题之后 | 文件名: 01-xxx.png | alt: ... -->

接下来当你对 AI 说「生成第 01 张图」时，它会按这个 skill 约定的流程来做事：

先生成图片，然后把这条 TODO 注释回写替换成真正的图片引用（![alt](xx.png)）。

如下图所示，就是替换发生的位置：上面是原来的 TODO 注释，下面是替换后的图片引用。

先规划再生成的好处是：你可以先把插图位置与意图确认下来，不用浪费生成图片消耗的 token。

第五步：对不满意的图片效果继续迭代 skill，直到稳定

当对某张图不满意时，不要把修图要求堆在当前对话里，而是回到 skill 的规则里改。

因为你真正想要的是下一次也能自动做对，而不是只在这一次把它改对。

第六步：把 skill 放到个人目录的 `.cursor/skills/`，实现全局可用

当你在仓库里跑顺之后，再把 skill 放到个人目录下的 .cursor/skills/，它就能全局使用。

这一步做完，你会明显感觉到：配图从「项目内的一次性操作」变成了「你自己的工作流能力」。

第七步：生成过程中也可以切换 model

只要把想要的风格规范写得足够完善，即使切换模型、甚至用 Auto 模式生成，效果也基本上是我想要的。

如果对某些图片质量要求更高，比如想做封面图，我更倾向用 GPT-5.2 来生成，通常更稳定、更细腻。

总结：把配图变成可复用的规则，而不是一次性提示词

回头看，我做的事情其实很简单：

把「配图」从一个临时任务，变成一套可复用的规则与流程。

你不需要追求一次写出完美的 skill。

先让它能规划、能落占位、能一张张生成并回写，

然后用真实文章持续打磨专属你自己的风格规范。

到这里其实已经够用了。

对于我自己来说，整体的文章配图时间，从一开始可能要花 2 个小时去规划、生成、细调，现在只需要 10 分钟左右，而且还能保证都是我想要的风格。

剩下的提升空间，就看你愿意投入多少「审美与规则」去换取长期稳定的产出。

感谢您的阅读。

这里会持续记录我对技术、工程实践与新趋势的思考，可关注微信公众号 前端Fusion 获取后续更新。

如果您喜欢这篇文章，欢迎点赞或分享。

分享底图_压缩.png

把文章配图这件事，做成一个能稳定输出个人风格的自动化 skill