【绵小咩陪你学AI】文生图提示词入门指南:AI到底想让你怎么说话?

0 阅读5分钟

前言

很多人第一次用文生图模型,上来就写"一只猫"或者"一个美女",结果出图惨不忍睹——猫长三只耳朵,美女手指像树枝。

说实话,这不是 AI 不行,是你说话的姿势不对。

我第一次用 SD(Stable Diffusion)的时候,兴冲冲写了个"beautiful landscape",出了张像打了马赛克的混沌图。后来看了大量资料才搞明白:写提示词的本质,是学会和一个"图像搜索引擎"精确对话。

下面是一份实操指南,没有废话,直接上技巧。

image.png


一、为什么你总是"抽卡"?

先搞清楚底层逻辑:扩散模型生成图像时,每一步去噪都需要明确的"锚点"来约束输出方向。

你写的每个词,都在告诉 AI:"往这个方向搜。"

词越具体,搜索范围越窄,结果越可控。词越模糊,AI 越放飞自我。

所以"a beautiful woman"每次出图都不一样——"beautiful"对 AI 来说等于什么都没说,信息量约等于零。


二、四要素公式,所有好提示词的地基

不管你用哪个模型,四要素框架都是底层结构:

提示词 = 画面主体 + 主体修饰 + 镜头光影 + 风格设定

要素作用示例
画面主体画什么young woman, ancient temple, red sports car
主体修饰长什么样long black hair, marble columns, carbon fiber body
镜头光影怎么拍golden hour, soft side lighting, rule of thirds
风格设定什么质感photorealistic, oil painting, anime style

反面教材:

"一个美女在花园里,漂亮的,阳光"

对 AI 来说,这句话等于什么都没说。

正面示范:

"a young woman with flowing black hair, wearing a white sundress, standing in a rose garden, soft golden hour light, shallow depth of field, cinematic composition, ultra-detailed, photorealistic"

四要素齐全,AI 才有足够的信息锚定你的画面。


三、新手最常踩的三个坑

坑 1:顺序不对,前功尽弃

AI 从左到右处理提示词,越靠前的词权重越高。

质量词(masterpiece、best quality、8K、HDR)放开头,是因为它们占据最高的注意力位置——相当于给 AI 说"认真画"。

正确顺序:

best quality, masterpiece, 8K HDR主体环境/光线风格词

错误顺序(新人最常犯):

a landscape, masterpiece, best quality, 8K

landscape 被挤到后面,AI 根本不知道你想画什么山。

坑 2:以为越长越好,两百个词全堆上

其实每次只改一个元素才是最快的迭代方法:

第一轮最短描述确定构图 → 第二轮修细节 → 第三轮调光线 → 第四轮加风格。

一次动一处,你才能判断哪个词真的起作用。那些两百个词一起写的人,翻车了根本不知道是哪步出了问题。

坑 3:所有模型用同一种写法

模型正确写法
Stable Diffusion英文短词组,逗号分隔
Midjourney自然语言长句
FLUX精确英文描述

SD 用 MJ 的长句写法,效果往往很随机。工具的脾气不一样,策略也要调整。


四、三个立竿见影的技巧

技巧 1:权重语法(SD 用户必备)

用括号控制单个词的强调程度:

(epic:1.3)   →   史诗感权重 × 1.3
[keyword]    →   该词权重 × 0.9

举个例子:

"a dragon, (epic:1.3), flying in the sky"

AI 会把"史诗感"这个维度拉到最强。权重别超过 1.5,否则画面会崩。

技巧 2:艺术家风格引用(MJ 用户最爱)

直接写画家名字是最快出风格的方法:

  • in the style of Hayao Miyazaki → 宫崎骏动画风
  • by Greg Rutkowski → 油画奇幻风(SD 训练数据里出现最多的名字)
  • Makoto Shinkai lighting → 新海诚那种通透光感

不过两个以上的艺术家名会相互稀释,建议最多用两个,而且你最好真的了解这个画家的风格。

技巧 3:负面提示词(SD 用户必须加)

一句:

ugly, deformed, extra fingers, bad anatomy, blurry

能帮你省掉大量的重绘时间。

原理很简单:模型同时计算正负梯度,负面词在潜空间里把不需要的特征"推开"。


五、一个被所有资料都忽略的问题

我讨论的时候发现,三份报告都没有提到一件事:

提示词策略应该随分辨率动态调整。

同一组提示词,512×512 和 1024×1024 下的表现可能完全不一样——低分辨率下细节词容易被"淹没",高分辨率下模型反而对材质纹理更敏感。

从 512 切到 1024 的时候,提示词结构也需要重新优化。一套写法打天下,不灵。


六、入门路径

第一步:模仿
找一张你喜欢的图,试着拆解它的四要素。

第二步:拆解
逐个理解每个要素对最终图像的影响。

第三步:重组
改写其中一个要素,生成自己的变体。

就这么循环几次,你会有一个感觉:哪些词有用,哪些词只是占位。

进阶方向:

  • 控制网络(Depth Map、Canny Edge)→ 精确控制构图骨架
  • LoRA 微调 → 固定角色面部一致性
  • 多模态混合输入(文 + 图 + 语义掩码)→ 未来的方向

结论

image.png

写好提示词不是玄学,就是一个工程技能:

  • ★ 四要素框架:主体 + 修饰 + 光影 + 风格
  • ★ 前 3-5 词定基调:CLIP 注意力天然首位优先
  • ★ 描述必须具体:发色 / 服饰 / 材质,越模糊越随机

提示词不是写作文,是指挥 AI 画画的工程图。

掌握这几点,你也能从"抽卡玩家"变成"指哪打哪"。