我开源了一个 Skill-自动输出一套完整的小红书

0 阅读7分钟

OMI 3.0 深度解析

作者:麦当mdldm|AI 教学自媒体博主
开源仓库:github.com/CzzzzzzJ/omi


🧵 [1/13]

我开源了一个 Skill。

叫 OMI 3.0。

image.png

它能让你的 Agent——无论是 OpenClaw、Claude Code 还是扣子——
输入一段文字,自动输出一套完整的小红书图文笔记。

封面图 + 内容页 + 分镜脚本,全套。

但 OMI 真正有意思的地方,不是"自动出图"这件事。

让我来拆开讲。

image.png


🧵[2/13]

在讲 OMI 3.0 之前,先说它怎么来的。

OMI 1.0(Coze 插件)
思路是:LLM 生成 HTML → 截图 → 发布。

这个模式机械,但稳定。
现在很多 AI PPT 工具还在用这套——
因为 HTML 结构可控,不会随机崩。

但做小红书笔记不一样。
小红书是感官极强的图文平台,
HTML 截出来的东西,一眼就看出"机器做的",
质感差距太大,走不通。

OMI 2.0(Coze 插件)
Nano Banana 刚发布,带来了图生图能力的飞跃。
我直接把 HTML 截图的模式换掉,
改成 prompt + 图生图——
画面感、质感都上来了。

但有个问题没解决:
还是跑在 Coze 的工作流框架里。
换平台?不行。定制改造?受限。

OMI 3.0(开源 Skill)
到了这个版本,我觉得架构想清楚了。
Skill 是一种集大成的形态——
平台无关、结构清晰、可被任何 Agent 调用。

既然做到这一步了,不如开源。

image.png

image.png

[3/13]

先说 OMI 解决的是什么问题。

做小红书图文,难点不是写文案,
也不是生图——

难点是:同一个 IP 形象,在不同场景下保持视觉一致性。

你今天生的封面是糖果色,
明天的内页变成科技蓝,
后天 IP 的动作和上一篇完全不搭……

发多了,账号就"不像同一个人"了。

这个问题,工具层面解决不了,
必须在 Prompt 设计层面解决。


[4/13]

OMI 的解法是:

先生成一张"视觉资产看板",后面所有图都引用它。

这张看板(Asset Board)包含:

  • IP 的标准立绘
  • 5-6 色的色卡(主色/辅色/点缀色比例锁死)
  • 字体层级示例
  • 封面/内页的版式蓝图(线框图)
  • 风格化装饰 UI 组件

它不是一张"好看的图",
它是一份可被 AI 读取的设计说明书

后续生图时,每次都把这张图传入,
AI 就有了一个稳定的"风格锚点"。

这个设计,彻底解决了多图漂移的问题。

image.png


[5/13]

整个 OMI 的执行流程是这样的:

Step 1|资产生成器
输入 IP 形象图 + 风格需求
→ 输出"视觉资产看板"(16:9)

Step 2|笔记导演(纯 LLM)
输入原始素材文本
→ 输出结构化分镜脚本 JSON

Step 3|封面生成大师
输入 cover_json + 资产看板
→ 输出封面图(3:4,4K)

Step 4|内容生成大师
输入 content_json + 资产看板
→ 输出内容页图(3:4,2K,逐页生成)

其中 Step 1 只需要跑一次,
之后每次出新内容,从 Step 2 开始就行了。

image.png

[6/13]

OMI 里最值得细看的是 Step 2:笔记导演。

它输出的不是文字,是 JSON。

比如封面这样写:

{
  "type": "cover",
  "content_layer": {
    "main_title": "学不会这个你就亏了",
    "text_layout_intent": "大字报风格"
  },
  "visual_layer": {
    "ip_role": "Hero",
    "ip_instruction": "双手抱头震惊,被大字压住"
  }
}

内页这样写:

{
  "type": "content",
  "visual_layer": {
    "ip_role": "Guide",
    "ip_instruction": "IP在右下角,用手指指向文字列表"
  }
}

你看到了吗——
IP 的动作、位置、戏份,全都是字段,不是模糊的描述。

这才是能稳定复现出图效果的原因。


[7/13]

OMI 里有一个我觉得最精准的设计决策:

封面 IP 是主角(Hero Mode),内页 IP 是配角(Guide Mode)。

封面:

  • IP 占画面 > 40%
  • 动作夸张,表情丰富
  • 直接与标题互动(穿插/被压住/抱道具)
  • 目的:在发现页抢夺眼球

内页:

  • IP 占画面 < 15%
  • 缩在角落,动作微小
  • 绝不遮挡文字
  • 目的:提供情绪陪伴,打破文字枯燥感

这不是"设计规范",
这是对小红书用户行为的精准理解——

封面决定点不点进来,
内页决定看不看完。

两件事,用同一套视觉语言,但完全不同的策略。

image.png

[8/13]

openclaw008 这集专门讲这件事。

OpenClaw 接入 OMI-skill 之后,
虾的图片生成能力被"激活"了——

它能调用的不是 API,
而是本地的图片生成工具(比如 Gemini Image)。

关键理解:
Skill 文件(SKILL.md)是"总导演",
它告诉 OpenClaw:

  • 现在跑哪一步
  • 传什么变量进去
  • 调用哪个 Prompt 文件
  • 用什么尺寸和质量参数生图

prompts/ 目录下的 4 个文件,
才是真正被执行的 Prompt 内容。

SKILL.md 本身不是 Prompt,
它是一个编排文件,负责把 4 个步骤串起来。

这个分层设计,
让你改某一步的逻辑时,完全不影响其他步骤。

image.png

[9/13]

有人问:拿到别人的 Skill,怎么改成自己的版本?

OMI 是一个很好的练手案例,因为它结构清晰。

几个最容易调优的地方:

① 资产生成器:把风格描述改成你的 IP 调性
比如把"多巴胺"换成"国潮"或"极简黑白"

② 笔记导演:调整内页数量(默认 3-5 页)
如果你的内容干货多,可以改成最多 7 页

③ IP 戏份比例:
封面 > 40% 是默认值
做更知识型的账号,可以调成 > 30%,留更多空间给标题

④ 内容规则:
在 User Prompt 的"禁止"列表里
加入你自己账号的特殊规避词

核心原则:
改变量和约束,不要改结构。
结构是 OMI 的精华,变量是你的个性。


[10/13]

OMI 的 README 开头这句话值得反复读:

"一套适用于任何 Agent 平台的小红书图文笔记自动生成 Skill。"

它不绑定 OpenClaw,不绑定 Claude Code,
不绑定扣子——

只要你的 Agent 能生图,就能跑。

这背后的设计哲学是:

能力归 Agent,流程归 Skill。

图片生成是 Agent 的能力,
OMI 只负责"怎么用好这个能力"的流程。

所以当你的 Agent 升级了、换了、
或者接了新的生图模型——

OMI 不需要改,依然能跑。

这才是一个真正有生命力的开源 Skill 应该有的样子。


[11/13]

OMI 还有一个小细节:

如果你的 Agent 没有图片生成能力——
Step 2 的分镜脚本(笔记导演)依然可以正常输出。

你拿到 JSON 以后,
可以手动把它喂给 Midjourney、Stable Diffusion、
或者任何图生图工具。

这个设计让"零配置入门"变成可能。

先理解 OMI 的逻辑,再一步步接图片能力——
不是一上来就需要配好所有东西才能开始。

降低门槛,是好工具的基本素养。


[12/13]

OMI 的 Prompt 里有一段,一开始我也忽视了:

User Prompt 里内置了小红书的违禁词规则——

禁止:

  • 极/最/第一/首个(绝对化表达)
  • 明示外部链接(引流站外)
  • 单独的福利领取页
  • 梯子/翻墙字样

这不是"提醒你注意",
是直接写进了 Prompt 的约束层。

意思是:
你不需要每次手动检查,
OMI 在生成内容时就已经在帮你规避了。

自动合规,是内容生产工具的隐性价值,
大多数人做工具的时候根本不会想到这件事。

image.png


[13/13]

OMI 3.0 开源地址:
github.com/CzzzzzzJ/omi

安装方式:
直接跟你的 Agent 说:
「帮我安装这个 skill:
git clone github.com/CzzzzzzJ/om…

完整讲解在 openclaw008:
如何在 OpenClaw 里接入 OMI、
看懂 Skill 里的 Prompt 是怎么被调用的、
以及如何改成适合自己账号的版本——

课程在知识站:mdldm.club


如果你觉得这个设计有意思,
可以 fork 改成自己的版本。
MIT 协议,保留出处就行。

🦞 麦当mdldm