OMI 3.0 深度解析
作者:麦当mdldm|AI 教学自媒体博主
开源仓库:github.com/CzzzzzzJ/omi
🧵 [1/13]
我开源了一个 Skill。
叫 OMI 3.0。
它能让你的 Agent——无论是 OpenClaw、Claude Code 还是扣子——
输入一段文字,自动输出一套完整的小红书图文笔记。
封面图 + 内容页 + 分镜脚本,全套。
但 OMI 真正有意思的地方,不是"自动出图"这件事。
让我来拆开讲。
🧵[2/13]
在讲 OMI 3.0 之前,先说它怎么来的。
OMI 1.0(Coze 插件)
思路是:LLM 生成 HTML → 截图 → 发布。
这个模式机械,但稳定。
现在很多 AI PPT 工具还在用这套——
因为 HTML 结构可控,不会随机崩。
但做小红书笔记不一样。
小红书是感官极强的图文平台,
HTML 截出来的东西,一眼就看出"机器做的",
质感差距太大,走不通。
OMI 2.0(Coze 插件)
Nano Banana 刚发布,带来了图生图能力的飞跃。
我直接把 HTML 截图的模式换掉,
改成 prompt + 图生图——
画面感、质感都上来了。
但有个问题没解决:
还是跑在 Coze 的工作流框架里。
换平台?不行。定制改造?受限。
OMI 3.0(开源 Skill)
到了这个版本,我觉得架构想清楚了。
Skill 是一种集大成的形态——
平台无关、结构清晰、可被任何 Agent 调用。
既然做到这一步了,不如开源。
[3/13]
先说 OMI 解决的是什么问题。
做小红书图文,难点不是写文案,
也不是生图——
难点是:同一个 IP 形象,在不同场景下保持视觉一致性。
你今天生的封面是糖果色,
明天的内页变成科技蓝,
后天 IP 的动作和上一篇完全不搭……
发多了,账号就"不像同一个人"了。
这个问题,工具层面解决不了,
必须在 Prompt 设计层面解决。
[4/13]
OMI 的解法是:
先生成一张"视觉资产看板",后面所有图都引用它。
这张看板(Asset Board)包含:
- IP 的标准立绘
- 5-6 色的色卡(主色/辅色/点缀色比例锁死)
- 字体层级示例
- 封面/内页的版式蓝图(线框图)
- 风格化装饰 UI 组件
它不是一张"好看的图",
它是一份可被 AI 读取的设计说明书。
后续生图时,每次都把这张图传入,
AI 就有了一个稳定的"风格锚点"。
这个设计,彻底解决了多图漂移的问题。
[5/13]
整个 OMI 的执行流程是这样的:
Step 1|资产生成器
输入 IP 形象图 + 风格需求
→ 输出"视觉资产看板"(16:9)
Step 2|笔记导演(纯 LLM)
输入原始素材文本
→ 输出结构化分镜脚本 JSON
Step 3|封面生成大师
输入 cover_json + 资产看板
→ 输出封面图(3:4,4K)
Step 4|内容生成大师
输入 content_json + 资产看板
→ 输出内容页图(3:4,2K,逐页生成)
其中 Step 1 只需要跑一次,
之后每次出新内容,从 Step 2 开始就行了。
[6/13]
OMI 里最值得细看的是 Step 2:笔记导演。
它输出的不是文字,是 JSON。
比如封面这样写:
{
"type": "cover",
"content_layer": {
"main_title": "学不会这个你就亏了",
"text_layout_intent": "大字报风格"
},
"visual_layer": {
"ip_role": "Hero",
"ip_instruction": "双手抱头震惊,被大字压住"
}
}
内页这样写:
{
"type": "content",
"visual_layer": {
"ip_role": "Guide",
"ip_instruction": "IP在右下角,用手指指向文字列表"
}
}
你看到了吗——
IP 的动作、位置、戏份,全都是字段,不是模糊的描述。
这才是能稳定复现出图效果的原因。
[7/13]
OMI 里有一个我觉得最精准的设计决策:
封面 IP 是主角(Hero Mode),内页 IP 是配角(Guide Mode)。
封面:
- IP 占画面 > 40%
- 动作夸张,表情丰富
- 直接与标题互动(穿插/被压住/抱道具)
- 目的:在发现页抢夺眼球
内页:
- IP 占画面 < 15%
- 缩在角落,动作微小
- 绝不遮挡文字
- 目的:提供情绪陪伴,打破文字枯燥感
这不是"设计规范",
这是对小红书用户行为的精准理解——
封面决定点不点进来,
内页决定看不看完。
两件事,用同一套视觉语言,但完全不同的策略。
[8/13]
openclaw008 这集专门讲这件事。
OpenClaw 接入 OMI-skill 之后,
虾的图片生成能力被"激活"了——
它能调用的不是 API,
而是本地的图片生成工具(比如 Gemini Image)。
关键理解:
Skill 文件(SKILL.md)是"总导演",
它告诉 OpenClaw:
- 现在跑哪一步
- 传什么变量进去
- 调用哪个 Prompt 文件
- 用什么尺寸和质量参数生图
prompts/ 目录下的 4 个文件,
才是真正被执行的 Prompt 内容。
SKILL.md 本身不是 Prompt,
它是一个编排文件,负责把 4 个步骤串起来。
这个分层设计,
让你改某一步的逻辑时,完全不影响其他步骤。
[9/13]
有人问:拿到别人的 Skill,怎么改成自己的版本?
OMI 是一个很好的练手案例,因为它结构清晰。
几个最容易调优的地方:
① 资产生成器:把风格描述改成你的 IP 调性
比如把"多巴胺"换成"国潮"或"极简黑白"
② 笔记导演:调整内页数量(默认 3-5 页)
如果你的内容干货多,可以改成最多 7 页
③ IP 戏份比例:
封面 > 40% 是默认值
做更知识型的账号,可以调成 > 30%,留更多空间给标题
④ 内容规则:
在 User Prompt 的"禁止"列表里
加入你自己账号的特殊规避词
核心原则:
改变量和约束,不要改结构。
结构是 OMI 的精华,变量是你的个性。
[10/13]
OMI 的 README 开头这句话值得反复读:
"一套适用于任何 Agent 平台的小红书图文笔记自动生成 Skill。"
它不绑定 OpenClaw,不绑定 Claude Code,
不绑定扣子——
只要你的 Agent 能生图,就能跑。
这背后的设计哲学是:
能力归 Agent,流程归 Skill。
图片生成是 Agent 的能力,
OMI 只负责"怎么用好这个能力"的流程。
所以当你的 Agent 升级了、换了、
或者接了新的生图模型——
OMI 不需要改,依然能跑。
这才是一个真正有生命力的开源 Skill 应该有的样子。
[11/13]
OMI 还有一个小细节:
如果你的 Agent 没有图片生成能力——
Step 2 的分镜脚本(笔记导演)依然可以正常输出。
你拿到 JSON 以后,
可以手动把它喂给 Midjourney、Stable Diffusion、
或者任何图生图工具。
这个设计让"零配置入门"变成可能。
先理解 OMI 的逻辑,再一步步接图片能力——
不是一上来就需要配好所有东西才能开始。
降低门槛,是好工具的基本素养。
[12/13]
OMI 的 Prompt 里有一段,一开始我也忽视了:
User Prompt 里内置了小红书的违禁词规则——
禁止:
- 极/最/第一/首个(绝对化表达)
- 明示外部链接(引流站外)
- 单独的福利领取页
- 梯子/翻墙字样
这不是"提醒你注意",
是直接写进了 Prompt 的约束层。
意思是:
你不需要每次手动检查,
OMI 在生成内容时就已经在帮你规避了。
自动合规,是内容生产工具的隐性价值,
大多数人做工具的时候根本不会想到这件事。
[13/13]
OMI 3.0 开源地址:
github.com/CzzzzzzJ/omi
安装方式:
直接跟你的 Agent 说:
「帮我安装这个 skill:
git clone github.com/CzzzzzzJ/om…
完整讲解在 openclaw008:
如何在 OpenClaw 里接入 OMI、
看懂 Skill 里的 Prompt 是怎么被调用的、
以及如何改成适合自己账号的版本——
课程在知识站:mdldm.club
如果你觉得这个设计有意思,
可以 fork 改成自己的版本。
MIT 协议,保留出处就行。
🦞 麦当mdldm