怎么写好一个AI提示词?10个场景与50个技巧+官方100个教程合集

218 阅读9分钟

我是AI卷王饼干哥哥。

最近我在社群里发现一个极度割裂的现象:

一边是看着Sora 2生成的电影级视频、Claude写出的复杂系统惊叹不已,焦虑得睡不着觉;

另一边是想学AI却不知道从哪下手的迷茫。

图片

当我建议从提示词开始入手时,很多新朋友却告诉我:一些博主说提示词工程已死,现在AI理解力这么强,像人一样随便聊聊不就行了吗?

听到这里,我整个人是懵的。

确实,现在的模型能听懂人话,但听懂和能干活完全是两个维度的概念。

你随便聊聊,它就给你随便回回。

想让Cursor写出的代码没有逻辑死循环、让Veo生成的视频镜头不乱晃、让数据分析出的结论不是一本正经的胡说八道,靠随便聊聊绝无可能。

甚至可以说,模型越强大,对提示词精度的要求反而越高。因为强模型的发散性更强,如果你不懂得用结构化的指令去约束它的边界、定义它的路径,它的聪明只会变成不可控的幻觉。

无论技术怎么迭代,AI的底层逻辑依然是提示词驱动。

所以在2026年,想真正掌控AI而不是被AI糊弄,第一件事依然是死磕提示词。

这最有价值,也最见功力。

之前我写过一些不同场景下的提示词方案。

有通用做HTML、SVG的:

AI做SVG的终极方案,一套提示词模板无痛搞定:小红书知识卡片、数据可视化图表、原型图、动态图……

AI做HTML的终极方案,一套提示词模板搞定所有应用:PPT、简历、高保真原型图、知识卡片、动态交互组件等

有专门用于生图、生视频的:

Awesome Nano Banana!迄今最强生图模型的28个玩法合集 | 附提示词

最强视频模型S2上线Lovart,总结了9大实战技巧

VEO 3.1 正面硬刚Sora 2!我扒了 5 个极限场景,Sora竟然输麻了?

有专门用于做数据分析、用户洞察、财报的:

7000字深度对比Claude4、Kimi k2和云听AI,谁才能真正在商业洞察落地?

9000字落地实操:AI做用户购后评论洞察分析

AI做财报分析、行业分析的5大步骤与11个提示词

但老实说,作为日常左右开弓卷自己的AI博主,我觉得这些提示词还有很大的提升空间

所以我重新整理了一个更全、更专业的提示词技巧。

划分成了10个场景,每个场景都有最佳实践的5个技巧,加起来就是50个。

Image

并且整理了官方出版的各种提示词教程合集,加起来上百个。

Image

按饼干哥哥量大管饱惯例,这些完全免费获取。

入口见文末。

图片

接下来说下节选一些场景,讲一下痛点和常见问题在哪。

场景一:AI生视频 (Video Generation)

为什么视频生成这么难?

视频生成模型本质上不是在生成图像,而是在模拟物理世界的时间切片。

大多数人在视频生成上受挫,核心原因是用 静态思维 去驱动 动态模型。在文生图 MJ/SD 时代,你只需要描述画面里有什么;但在视频生成时代,如果你只描述画面,模型就必须对 时间维度 和 物理规律 进行全量幻觉补全。

这会导致三个最常见的痛点:

  1. 1. 动态坍塌:画面是动的,但主体像幻灯片平移,或者背景不动只有嘴动,缺乏物理惯性。
  2. 2. 语义漂移:视频前 2 秒是男人,后 2 秒变成了女人,或者衣服颜色随光影变化而改变。
  3. 3. 镜头失控:想要推镜头(Dolly In),模型却生成了主体变大(Scale Up),导致空间透视关系崩塌。

因此,视频提示词的核心逻辑必须从 画面描述 升级为 状态控制指令。你必须显式定义 主体、动作、运镜、光影、物理属性 这五个维度的参数。

最佳实践与技巧

在 Veo 3.1 和 Sora 2 的高频讨论中,被验证最有效的提示词结构并非自然语言长句,而是 分层结构化指令。

图片

完整版见文末

1. 通用七层结构框架 (The 7-Layer Structure)
2. 运镜控制的标准化术语
3. 物理与动态的描述技巧
4. 结构化 JSON Prompting (进阶)
5. 负向提示词 (Negative Prompts)

场景二:AI 生图 (Image Generation)

为什么生图总是要抽卡?

现在的生图模型(如 Flux, Midjourney V6, Nano Banana)虽然画质极高,但在精准控制上依然存在巨大痛点。

核心问题在于模型对 自然语言的非结构化理解 与 像素生成的空间逻辑 之间存在断层。大多数用户习惯堆砌形容词(High quality, 8k, beautiful),导致三个典型问题:

  1. 1. 语义溢出 (Semantic Bleeding):你写“蓝色的帽子和红色的鞋”,结果生成了红色的帽子。模型无法将颜色属性精准绑定到特定物体上。
  2. 2. 一致性丢失 (Identity Loss):生成了一张完美的人像,微调提示词想换个背景,结果脸变了。
  3. 3. 指令混淆 (Instruction Confusion):尤其在 Nano Banana 这类支持图像编辑的模型中,用户分不清是在“描述新画面”还是在“下达修改指令”,导致模型只生成了新图而忽略了原图约束。

因此,最佳实践的核心是从 标签堆砌 转向 分层构建 与 工单式指令。

最佳实践与框架

基于 Nano Banana 和 Flux 的最新讨论,以下四种提示词策略被验证为最高效的工业级写法。

1. 编辑模型的“工单式”提示词 (The Work-Order Protocol)
2. 摄影分层结构 (The S-E-L-C Framework)
3. 结构化反向工程 (The Reverse-Engineering JSON)
4. 证件照/规范图的“约束前置” (Constraint-First Prompting)

场景三:AI 编程 (AI Coding / Engineering)

场景四:结构化提示词 (Structured JSON Prompting)

什么是 JSON?它和自然语言写提示词有何本质区别?

JSON (JavaScript Object Notation) 本质上是一种数据交换格式,但在 AI 提示词工程中,它是一种 强制性的思维导图。

自然语言 (Natural Language) 的提示词是线性的流式信息。当你写一段长文时,模型需要自己去拆解哪句话是指令、哪句话是背景、哪句话是约束。这容易导致 注意力分散 或 指令遗忘。

JSON 提示词 则是结构化的键值对信息。它通过 { Key: Value } 的形式,强行将指令拆解为独立的模块。

核心区别对比:

  • 自然语言 (NL):
  • 请帮我生成一段视频,画面是一个赛博朋克的武士在下雨的东京街头拔刀,镜头要慢动作推近,光线要霓虹感,不要有任何模糊。
  • 缺陷:修饰词容易混淆(霓虹感是修饰街头还是修饰刀?),长难句容易导致模型漏掉“慢动作”这个指令。
  • 结构化提示词 (JSON):
{
  "Subject": "Cyberpunk Samurai",
  "Action": "Unsheathing katana",
  "Environment": {
    "Location": "Tokyo Street",
    "Weather": "Heavy Rain"
  },
  "Camera": "Slow motion, Dolly In",
  "Lighting": "Neon ambiance",
  "Negative_Prompt": "Blurry, Low resolution"
}
什么场景下最适合用 JSON 写提示词?

并非所有对话都适合用 JSON。在简单的问答中,JSON 会增加 Token 消耗且显得繁琐。但在以下场景中,JSON 是绝对的统治者:

  1. 1. 高精度视频生成 (Sora 2 / Veo 3.1):

如前文所述,视频包含主体、环境、运镜、物理规律等多个维度。用 JSON 可以确保模型不会把“镜头向左移”理解成“主角向左走”。

  1. 2. 批量化内容生产 (Programmatic SEO / Ads):

当你需要生成 1000 条格式统一、但内容不同的广告文案时。你只需要固定 JSON 的结构(Schema),然后用脚本动态替换其中的变量(如产品名),即可保证输出质量的高度一致性。

  1. 3. 复杂角色扮演 (Complex Roleplay):

需要维护复杂的角色状态时。例如:{"Current_Mood": "Angry", "Memory": ["Insulted by user"], "Goal": "Seek revenge"}。用 JSON 显式定义状态,比用自然语言描述“你现在很生气”更稳定。

  1. 4. API 对接与工作流自动化 (Agents):

当提示词是自动化程序的一部分,需要被代码解析时。

最佳实践与注意事项
1. 键名即指令 (Semantic Keys)
2. 伪代码与注释 (Pseudo-code & Comments)
3. 模块化复用 (Modularity)
4. 避免过度嵌套 (Avoid Deep Nesting)
5. 显式定义负向约束 (Negative Constraints within JSON)

场景五:数据分析 (Data Analysis)

场景六:去AI味 (De-AIing / Humanizing)

补充阅读:怎么一眼识别中文、英文内容是AI写的?

场景七:创意写作与角色扮演 (Roleplay & Writing)

场景八:深度调研与搜索 (Deep Research & Search)

场景九:实时语音/对话 (Real-time Voice)

场景十:长期运行与自主智能体 (Long-Running & Autonomous Agents)

本文完整版,关注公众号「饼干哥哥AGI」后台回复「提示词」获取即可。

限制AI上限的,从来不是算力,而是你的逻辑

刷完前面的内容,大家会发现一个残酷事实:

提示词工程,本质上是思维工程。

很多人用不好AI,不是因为不懂技术,而是因为无法清晰地定义问题。

当你脑子里的需求是模糊的一团浆糊时,再强的模型也只能吐给你一堆正确的废话。

我们反复强调结构化、分层、约束、元数据,其实是在逼迫自己把感性的直觉,翻译成理性的工程语言。

未来的分工会非常残酷且清晰:

AI负责极速的执行、穷举和推理,而人类只负责一件事——定义标准。

谁能把模糊的需求定义得越精准,谁就能调用越庞大的算力。

所以,不要去背诵那些所谓的魔法咒语,也不要迷信某种固定的模版。

真正的高手,修练的是把复杂现实问题拆解为机器可执行指令的能力。

当你不再把AI当成一个可以闲聊的网友,而是当成一个需要你用逻辑去编排、去约束、去调试的超级计算集群时,你才算真正跨过了那道门槛。

别让你的思想,成了AI发挥的瓶颈。