我开源了一个 Skill-自动输出一套完整的小红书OMI 3.0 深度解析 🧵 [1/13] 我开源了一个 Skill

OMI 3.0 深度解析

作者：麦当mdldm｜AI 教学自媒体博主
开源仓库：github.com/CzzzzzzJ/omi

🧵 [1/13]

我开源了一个 Skill。

叫 OMI 3.0。

它能让你的 Agent——无论是 OpenClaw、Claude Code 还是扣子——
输入一段文字，自动输出一套完整的小红书图文笔记。

封面图 + 内容页 + 分镜脚本，全套。

但 OMI 真正有意思的地方，不是"自动出图"这件事。

让我来拆开讲。

🧵[2/13]

在讲 OMI 3.0 之前，先说它怎么来的。

OMI 1.0（Coze 插件）
思路是：LLM 生成 HTML → 截图 → 发布。

这个模式机械，但稳定。
现在很多 AI PPT 工具还在用这套——
因为 HTML 结构可控，不会随机崩。

但做小红书笔记不一样。
小红书是感官极强的图文平台，
HTML 截出来的东西，一眼就看出"机器做的"，
质感差距太大，走不通。

OMI 2.0（Coze 插件）
Nano Banana 刚发布，带来了图生图能力的飞跃。
我直接把 HTML 截图的模式换掉，
改成 prompt + 图生图——
画面感、质感都上来了。

但有个问题没解决：
还是跑在 Coze 的工作流框架里。
换平台？不行。定制改造？受限。

OMI 3.0（开源 Skill）
到了这个版本，我觉得架构想清楚了。
Skill 是一种集大成的形态——
平台无关、结构清晰、可被任何 Agent 调用。

既然做到这一步了，不如开源。

[3/13]

先说 OMI 解决的是什么问题。

做小红书图文，难点不是写文案，
也不是生图——

难点是：同一个 IP 形象，在不同场景下保持视觉一致性。

你今天生的封面是糖果色，
明天的内页变成科技蓝，
后天 IP 的动作和上一篇完全不搭……

发多了，账号就"不像同一个人"了。

这个问题，工具层面解决不了，
必须在 Prompt 设计层面解决。

[4/13]

OMI 的解法是：

先生成一张"视觉资产看板"，后面所有图都引用它。

这张看板（Asset Board）包含：

IP 的标准立绘
5-6 色的色卡（主色/辅色/点缀色比例锁死）
字体层级示例
封面/内页的版式蓝图（线框图）
风格化装饰 UI 组件

它不是一张"好看的图"，
它是一份可被 AI 读取的设计说明书。

后续生图时，每次都把这张图传入，
AI 就有了一个稳定的"风格锚点"。

这个设计，彻底解决了多图漂移的问题。

[5/13]

整个 OMI 的执行流程是这样的：

Step 1｜资产生成器
输入 IP 形象图 + 风格需求
→ 输出"视觉资产看板"（16:9）

Step 2｜笔记导演（纯 LLM）
输入原始素材文本
→ 输出结构化分镜脚本 JSON

Step 3｜封面生成大师
输入 cover_json + 资产看板
→ 输出封面图（3:4，4K）

Step 4｜内容生成大师
输入 content_json + 资产看板
→ 输出内容页图（3:4，2K，逐页生成）

其中 Step 1 只需要跑一次，
之后每次出新内容，从 Step 2 开始就行了。

[6/13]

OMI 里最值得细看的是 Step 2：笔记导演。

它输出的不是文字，是 JSON。

比如封面这样写：

{
  "type": "cover",
  "content_layer": {
    "main_title": "学不会这个你就亏了",
    "text_layout_intent": "大字报风格"
  },
  "visual_layer": {
    "ip_role": "Hero",
    "ip_instruction": "双手抱头震惊，被大字压住"
  }
}

内页这样写：

{
  "type": "content",
  "visual_layer": {
    "ip_role": "Guide",
    "ip_instruction": "IP在右下角，用手指指向文字列表"
  }
}

你看到了吗——
IP 的动作、位置、戏份，全都是字段，不是模糊的描述。

这才是能稳定复现出图效果的原因。

[7/13]

OMI 里有一个我觉得最精准的设计决策：

封面 IP 是主角（Hero Mode），内页 IP 是配角（Guide Mode）。

封面：

IP 占画面 > 40%
动作夸张，表情丰富
直接与标题互动（穿插/被压住/抱道具）
目的：在发现页抢夺眼球

内页：

IP 占画面 < 15%
缩在角落，动作微小
绝不遮挡文字
目的：提供情绪陪伴，打破文字枯燥感

这不是"设计规范"，
这是对小红书用户行为的精准理解——

封面决定点不点进来，
内页决定看不看完。

两件事，用同一套视觉语言，但完全不同的策略。

[8/13]

openclaw008 这集专门讲这件事。

OpenClaw 接入 OMI-skill 之后，
虾的图片生成能力被"激活"了——

它能调用的不是 API，
而是本地的图片生成工具（比如 Gemini Image）。

关键理解：
Skill 文件（SKILL.md）是"总导演"，
它告诉 OpenClaw：

现在跑哪一步
传什么变量进去
调用哪个 Prompt 文件
用什么尺寸和质量参数生图

prompts/ 目录下的 4 个文件，
才是真正被执行的 Prompt 内容。

SKILL.md 本身不是 Prompt，
它是一个编排文件，负责把 4 个步骤串起来。

这个分层设计，
让你改某一步的逻辑时，完全不影响其他步骤。

[9/13]

有人问：拿到别人的 Skill，怎么改成自己的版本？

OMI 是一个很好的练手案例，因为它结构清晰。

几个最容易调优的地方：

① 资产生成器：把风格描述改成你的 IP 调性
比如把"多巴胺"换成"国潮"或"极简黑白"

② 笔记导演：调整内页数量（默认 3-5 页）
如果你的内容干货多，可以改成最多 7 页

③ IP 戏份比例：
封面 > 40% 是默认值
做更知识型的账号，可以调成 > 30%，留更多空间给标题

④ 内容规则：
在 User Prompt 的"禁止"列表里
加入你自己账号的特殊规避词

核心原则：
改变量和约束，不要改结构。
结构是 OMI 的精华，变量是你的个性。

[10/13]

OMI 的 README 开头这句话值得反复读：

"一套适用于任何 Agent 平台的小红书图文笔记自动生成 Skill。"

它不绑定 OpenClaw，不绑定 Claude Code，
不绑定扣子——

只要你的 Agent 能生图，就能跑。

这背后的设计哲学是：

能力归 Agent，流程归 Skill。

图片生成是 Agent 的能力，
OMI 只负责"怎么用好这个能力"的流程。

所以当你的 Agent 升级了、换了、
或者接了新的生图模型——

OMI 不需要改，依然能跑。

这才是一个真正有生命力的开源 Skill 应该有的样子。

[11/13]

OMI 还有一个小细节：

如果你的 Agent 没有图片生成能力——
Step 2 的分镜脚本（笔记导演）依然可以正常输出。

你拿到 JSON 以后，
可以手动把它喂给 Midjourney、Stable Diffusion、
或者任何图生图工具。

这个设计让"零配置入门"变成可能。

先理解 OMI 的逻辑，再一步步接图片能力——
不是一上来就需要配好所有东西才能开始。

降低门槛，是好工具的基本素养。

[12/13]

OMI 的 Prompt 里有一段，一开始我也忽视了：

User Prompt 里内置了小红书的违禁词规则——

禁止：

极/最/第一/首个（绝对化表达）
明示外部链接（引流站外）
单独的福利领取页
梯子/翻墙字样

这不是"提醒你注意"，
是直接写进了 Prompt 的约束层。

意思是：
你不需要每次手动检查，
OMI 在生成内容时就已经在帮你规避了。

自动合规，是内容生产工具的隐性价值，
大多数人做工具的时候根本不会想到这件事。

[13/13]

OMI 3.0 开源地址：
github.com/CzzzzzzJ/omi

安装方式：
直接跟你的 Agent 说：
「帮我安装这个 skill：
git clone github.com/CzzzzzzJ/om…

完整讲解在 openclaw008：
如何在 OpenClaw 里接入 OMI、
看懂 Skill 里的 Prompt 是怎么被调用的、
以及如何改成适合自己账号的版本——

课程在知识站：mdldm.club

如果你觉得这个设计有意思，
可以 fork 改成自己的版本。
MIT 协议，保留出处就行。

🦞 麦当mdldm