520,我们能干点啥?从提示词开始吧

0 阅读6分钟

系列:AI工程化学习助手实战 · 番外篇
时间:5月20日,一个工程师也会矫情一下的日子


520,我用 AI 生了张图

今天是 520。

朋友圈里,有人发玫瑰,有人发旅行照,有人发自拍。

我发了一张 AI 生成的图。

评论区第一条:**"这哪来的?好好看。"**

第二条:**"发你女朋友了吗?"**

……没有。但图确实好看。

学了半天 AI 工程化,终于干了件人事

学 LangChain、搞 RAG、研究 Agent Loop——说出去没几个人听得懂。

但"帮我生一张图"这件事,人人都能感受到。

AI 生图/生视频这条路,门槛低、反馈快、效果直接。唯一的坎是:

你得把"想法"翻译成模型能听懂的语言。

这件事有个正式名字,叫 Prompt Engineering——没错,就是 AI 工程化里那个"控制层"。


提示词≠说人话

很多人第一次用 Midjourney 或者 Stable Diffusion,都会犯同一个错:

把它当搜索框用。

# 你输入的
一个女孩站在夕阳下

# 你以为会出来的
《请回答1988》海报级别的温柔画面

# 实际出来的
一个轮廓模糊、表情诡异、手指数量存疑的人形生物
站在某个说不清是日出还是日落的橙色背景前

模型不会"脑补"你没说的东西。或者说,它会脑补,但脑补的方向不一定和你一致。

Prompt 的本质,是消除歧义。


拆解一条好的生图提示词

我把提示词结构拆成五层,记忆方式:主风光构情

主体  ──  画面里有什么,在做什么
风格  ──  用什么画风/美学来呈现
光线  ──  光从哪来,什么感觉
构图  ──  镜头怎么摆,拍什么角度
情绪  ──  整张图要传达什么氛围

举个例子,同样是"女孩 + 夕阳":

❌ 模糊版

一个女孩站在夕阳下

✅ 工程化版

一位年轻女性站在屋顶,黄金时刻光线,
电影胶片摄影风格,温暖逆光,
柔和镜头光晕,仰角广角构图,
怀旧温柔的氛围,35毫米胶片颗粒感,
高细节,富士胶片色调

同一个模型,提示词不同,出来的东西是两个世纪的产物。

五层提示词结构示意图


五层结构,逐层拆解

第一层:主体——说清楚"谁在做什么"

不要只写名词,要写状态

❌ 一只猫
✅ 一只蓬松的橘猫蜷缩着睡在一把复古木椅上,阳光从窗户斜射进来

加上动作、状态、细节,模型才知道你要的是哪个平行宇宙里的猫。


第二层:风格——告诉模型"往哪个方向想象"

风格是提示词里最有杠杆效应的词。一个风格词,能把整张图的气质拉到完全不同的频道。

常用风格速查:

你想要的感觉怎么描述
电影质感电影胶片风格、变形宽银幕镜头、柯达色调
日系温柔富士胶片色调、柔和马卡龙色、日系胶片美学
赛博朋克霓虹黑色电影风格、赛博朋克、银翼杀手氛围
油画厚重油画风格、厚涂肌理、伦勃朗光影
极简现代极简主义、大面积留白、包豪斯风格
插画手绘数字插画、扁平设计、吉卜力工作室风格

⚠️ 风格词不要堆太多。三个以上开始打架,出来的是"风格大杂烩"。


第三层:光线——最容易被忽视,但差距最大

摄影师会告诉你:光线决定一切。

AI 生图也一样。同一个场景,光线描述不同,出图天壤之别。

黄金时刻光线      → 傍晚温暖橙光,人像最友好
蓝色时刻/暮色     → 蓝调薄暮,忧郁文艺
戏剧性侧光        → 单侧强光,有张力有戏剧性
柔和散射光        → 阴天柔光,细腻、无阴影
霓虹逆光          → 霓虹逆光,赛博感拉满
伦勃朗三角光      → 经典三角光,古典画质感

六种光线效果参考


第四层:构图——决定"镜头从哪看"

特写人像          → 突出表情和细节
广角风景          → 强调空间和环境
航拍视角/鸟瞰     → 适合城市、自然场景俯拍
低角度仰拍        → 让主体显得有力量感
三分法构图        → 视觉平衡,最稳妥的选择

加上构图词,等于你直接告诉模型"摄影师站在哪"。


第五层:情绪——把感受说出来

这是最玄的一层,但也是最关键的。

怀旧感伤    → 暖色调、颗粒感、略微褪色
空灵梦幻    → 低饱和度、薄雾、柔焦
活力四射    → 高饱和度、强对比、动感构图
宁静祥和    → 大面积留白、低对比度、自然光
神秘电影感  → 强暗部、冷色调、戏剧性光影

情绪词不是装饰,是在告诉模型"这张图要让人感受到什么"。模型会把这种情绪融进配色、构图、光影里。


SRE 视角的提示词经验

学了 AI 工程化之后,我看提示词有了不一样的角度:

提示词 = 接口定义

你写的提示词,就是你和模型之间的接口。接口设计模糊,行为就不确定。这和写 API 文档是一回事:

  • 字段越清晰,响应越稳定
  • 歧义越多,结果越随机
  • 加上负面提示词,等于加了参数校验

负面提示词 = 输入过滤

Stable Diffusion 有个负面提示词功能,告诉模型"不要出现什么":

不要出现:模糊、丑陋、变形的手、多余的手指、
水印、低画质、卡通风格、过曝、噪点过重

这和 SRE 做输入过滤的逻辑一模一样:与其期望模型自己猜对,不如把不想要的情况明确排除掉。


写在最后:520 的一点感慨

技术这东西,学起来枯燥,用起来的时候,有时候也挺有意思的。

提示词本质上是一件很有趣的事——你要学会用语言精确描述你脑子里的画面,然后把它传递给一个从来没见过这个世界的模型。

这件事,工程师干起来,其实比想象中更顺手。

因为我们本来就习惯把模糊的需求,变成精确的指令。

520 愿你被温柔以待


下一篇:《Function Calling 实战:让 AI 真的能"做事",而不只是"说事"》

点击关注,持续更新中……


关于作者 SRE / 运维工程师,AI 工程化学习者。 相信每一行可靠的代码背后,都有一个工程师在认真思考。