前言
很多人第一次用文生图模型,上来就写"一只猫"或者"一个美女",结果出图惨不忍睹——猫长三只耳朵,美女手指像树枝。
说实话,这不是 AI 不行,是你说话的姿势不对。
我第一次用 SD(Stable Diffusion)的时候,兴冲冲写了个"beautiful landscape",出了张像打了马赛克的混沌图。后来看了大量资料才搞明白:写提示词的本质,是学会和一个"图像搜索引擎"精确对话。
下面是一份实操指南,没有废话,直接上技巧。
一、为什么你总是"抽卡"?
先搞清楚底层逻辑:扩散模型生成图像时,每一步去噪都需要明确的"锚点"来约束输出方向。
你写的每个词,都在告诉 AI:"往这个方向搜。"
词越具体,搜索范围越窄,结果越可控。词越模糊,AI 越放飞自我。
所以"a beautiful woman"每次出图都不一样——"beautiful"对 AI 来说等于什么都没说,信息量约等于零。
二、四要素公式,所有好提示词的地基
不管你用哪个模型,四要素框架都是底层结构:
提示词 = 画面主体 + 主体修饰 + 镜头光影 + 风格设定
| 要素 | 作用 | 示例 |
|---|---|---|
| 画面主体 | 画什么 | young woman, ancient temple, red sports car |
| 主体修饰 | 长什么样 | long black hair, marble columns, carbon fiber body |
| 镜头光影 | 怎么拍 | golden hour, soft side lighting, rule of thirds |
| 风格设定 | 什么质感 | photorealistic, oil painting, anime style |
反面教材:
"一个美女在花园里,漂亮的,阳光"
对 AI 来说,这句话等于什么都没说。
正面示范:
"a young woman with flowing black hair, wearing a white sundress, standing in a rose garden, soft golden hour light, shallow depth of field, cinematic composition, ultra-detailed, photorealistic"
四要素齐全,AI 才有足够的信息锚定你的画面。
三、新手最常踩的三个坑
坑 1:顺序不对,前功尽弃
AI 从左到右处理提示词,越靠前的词权重越高。
质量词(masterpiece、best quality、8K、HDR)放开头,是因为它们占据最高的注意力位置——相当于给 AI 说"认真画"。
正确顺序:
best quality, masterpiece, 8K HDR→ 主体 → 环境/光线 → 风格词
错误顺序(新人最常犯):
a landscape, masterpiece, best quality, 8K
landscape 被挤到后面,AI 根本不知道你想画什么山。
坑 2:以为越长越好,两百个词全堆上
其实每次只改一个元素才是最快的迭代方法:
第一轮最短描述确定构图 → 第二轮修细节 → 第三轮调光线 → 第四轮加风格。
一次动一处,你才能判断哪个词真的起作用。那些两百个词一起写的人,翻车了根本不知道是哪步出了问题。
坑 3:所有模型用同一种写法
| 模型 | 正确写法 |
|---|---|
| Stable Diffusion | 英文短词组,逗号分隔 |
| Midjourney | 自然语言长句 |
| FLUX | 精确英文描述 |
SD 用 MJ 的长句写法,效果往往很随机。工具的脾气不一样,策略也要调整。
四、三个立竿见影的技巧
技巧 1:权重语法(SD 用户必备)
用括号控制单个词的强调程度:
(epic:1.3) → 史诗感权重 × 1.3
[keyword] → 该词权重 × 0.9
举个例子:
"a dragon, (epic:1.3), flying in the sky"
AI 会把"史诗感"这个维度拉到最强。权重别超过 1.5,否则画面会崩。
技巧 2:艺术家风格引用(MJ 用户最爱)
直接写画家名字是最快出风格的方法:
in the style of Hayao Miyazaki→ 宫崎骏动画风by Greg Rutkowski→ 油画奇幻风(SD 训练数据里出现最多的名字)Makoto Shinkai lighting→ 新海诚那种通透光感
不过两个以上的艺术家名会相互稀释,建议最多用两个,而且你最好真的了解这个画家的风格。
技巧 3:负面提示词(SD 用户必须加)
一句:
ugly, deformed, extra fingers, bad anatomy, blurry
能帮你省掉大量的重绘时间。
原理很简单:模型同时计算正负梯度,负面词在潜空间里把不需要的特征"推开"。
五、一个被所有资料都忽略的问题
我讨论的时候发现,三份报告都没有提到一件事:
提示词策略应该随分辨率动态调整。
同一组提示词,512×512 和 1024×1024 下的表现可能完全不一样——低分辨率下细节词容易被"淹没",高分辨率下模型反而对材质纹理更敏感。
从 512 切到 1024 的时候,提示词结构也需要重新优化。一套写法打天下,不灵。
六、入门路径
第一步:模仿
找一张你喜欢的图,试着拆解它的四要素。
第二步:拆解
逐个理解每个要素对最终图像的影响。
第三步:重组
改写其中一个要素,生成自己的变体。
就这么循环几次,你会有一个感觉:哪些词有用,哪些词只是占位。
进阶方向:
- 控制网络(Depth Map、Canny Edge)→ 精确控制构图骨架
- LoRA 微调 → 固定角色面部一致性
- 多模态混合输入(文 + 图 + 语义掩码)→ 未来的方向
结论
写好提示词不是玄学,就是一个工程技能:
- ★ 四要素框架:主体 + 修饰 + 光影 + 风格
- ★ 前 3-5 词定基调:CLIP 注意力天然首位优先
- ★ 描述必须具体:发色 / 服饰 / 材质,越模糊越随机
提示词不是写作文,是指挥 AI 画画的工程图。
掌握这几点,你也能从"抽卡玩家"变成"指哪打哪"。