人人都能学会的提示词工程——提示素养:从习惯到精通

0 阅读34分钟

对大多数用户来说,与 AI 模型互动似乎是一件很直觉的事情:输入一句话,然后收到一个回应。毕竟,这与我们几十年来使用技术的方式非常相似。无论是搜索网页、给朋友发消息,还是和语音助手说话,默认的心智模型一直都受到这些工具的塑造:它们优先考虑简短、关键词和随意表达。用户输入一个片段,点击发送,然后期待得到相关结果。这些习惯经过多年网络搜索和自动补全系统的强化,显得非常自然,但它们已经不再足够。

大型语言模型(LLMs)并不是搜索引擎。它们不会扫描数据库来寻找预先写好的答案,也不会抓取权威链接。相反,它们会基于从海量数据集中学习到的模式,以概率方式生成输出。然而,许多用户仍然像查询 Google 或与客服机器人聊天一样使用 LLM。他们会输入:“Tell me about climate change?” 或 “Can you write a paragraph on AI?” 用户经常提供缺乏结构、上下文不足的输入,这并不一定是因为他们粗心,而是因为过去的系统已经训练他们优先追求速度,而不是精确性。

这种行为错配会导致一个令人沮丧的悖论:智能模型生成平庸输出。当提示词模糊时,模型就会猜测。当指令过少时,模型就会不必要地展开,或者偏离主题。用户可能会把这理解为 AI 本身的缺陷,而不是意识到这其实反映了我们继承下来的提示习惯已经不再适合这种媒介。真正的问题并不在于模型的能力,而在于我们与它互动的方式。

提示词工程首先要承认这种转变。它要求用户认识到,LLM 并不会读心;它们是在模拟意义。因此,沟通必须变得有意图、有结构,并且符合机器自身的解释逻辑。那些曾经在关键词搜索或随意聊天中很好用的习惯,例如极简表达、含糊表达和被动输入,必须让位于清晰性、约束和主动指令。

例如,用户问:“How does inflation work?” 可能会得到一段通用解释。但是,如果用户明确说:“请用 100 词以内解释通货膨胀如何影响英国的房贷持有人”,结果就会更精准、更相关,也更容易评估。这种转变不是一次技术升级,而是一次素养升级。也就是提示素养。

本章讨论的正是这种转变。它从我们继承下来的习惯出发,然后建立一种实践性的理解:如何带着意图、结构和适应性为 LLM 写作。提示并不是编程,也不是欺骗机器。它是在学习一种新的写作方式:这种写作方式能够让不理解我们的系统读懂人类目标;而如果我们学会说它们的语言,这些系统仍然可以根据我们的指令采取行动。

3.1 新系统,新规则

有效提示需要对所使用的系统有基本理解。许多用户错误地把大型语言模型(LLMs)等同于聊天机器人、语音助手或搜索引擎,但实际上它们运行在根本不同的原则之上。这些系统虽然表面上相似,但它们建立在根本不同的架构、逻辑和用户假设之上。把 LLM 当作聊天机器人来使用,会导致我们误解它们的优势和局限。

过去几十年中主导数字界面的规则型聊天机器人,本质上是脚本化的决策树。它们识别特定关键词或命令,然后返回预定义回应。当用户输入“reset my password”时,规则型系统会触发一条固定路径:验证身份、展示选项,并给出下一步。这类系统在狭窄任务中效率很高,但面对歧义、细微差别或复杂性时就很脆弱。它们的智能在最字面意义上是“人工的”:完全由系统设计者制造出来。

相比之下,LLM 是在大规模文本语料上训练出来的概率序列预测器。它们不遵循脚本,也不检索已存储的回应。相反,它们会基于训练数据中的统计关联,逐个 token 动态生成输出。当接收到提示时,它们会计算下一个最可能出现的词,然后不断重复这一过程,直到回答完成。这个过程可以模拟类似人类的推理,但其中并不包含真正的理解、记忆或意图。

从规则到概率的转变,为用户带来了新的挑战,也带来了新的机会。LLM 超越了基于规则系统中预编程指令的限制。它们可以写诗、在语言之间翻译、模拟专家辩论,或生成法律草稿。然而,这种灵活性也伴随着代价:不可预测性。由于不存在固定知识库,输出质量几乎完全取决于输入的结构、清晰度和具体性。除非被明确要求这样做,否则系统不会主动请求澄清,也不会识别歧义。这个根本限制解释了为什么有效提示构成的是一种编程纪律,而不是随意聊天。每一条提示都是用自然语言写成的命令序列,它塑造着模型的生成轨迹。用户并不是在和一个有意识的助手交谈,而是在为受控输出设计一个基于语言的界面。一个说明不足的提示,例如“Write something about climate change”,会让模型回到安全、通用的回答模式。相反,当提示被充分确定时,例如“请为英国政策制定者写一份 150 词简报,概述海平面上升的社会影响,使用通俗语言,并包含一个真实案例”,模型就会表现出更高的相关性和连贯性。

理解这种新的系统逻辑,会改变用户的责任。在旧系统中,失败通常归因于软件:它无法处理变化,于是用户学会简化输入。而在 LLM 系统中,失败常常发生在提示模糊、缺少脚手架,或与模型能力不匹配的时候。提示越精确,输出就越有用。

简而言之,提示 LLM 并不是随意互动,而是结构化指令。用户必须摆脱聊天和搜索的旧习惯,转而采用更接近系统设计师的思维方式。模型不是人,不是客服台。它是一面语言的镜子,由模式、结构和概率塑造。要用好它,我们就必须学会说它的逻辑。

3.2 向提示素养转变

从随意使用 AI 到有意识地进行提示词工程,这一过程中正在发生一场更深层次的转变,它类似于人类历史上的其他素养革命。就像印刷术出现时,阅读和写作要求人们形成新的思维方式一样,大型语言模型也要求一种属于它们自己的结构化素养。这种素养并不关乎技术编码或算法知识;它关乎如何为一台能够模拟语言、但并不真正理解语言的机器进行清晰且有策略的写作。

提示素养,是指通过塑造请求的形式、语气、结构和约束,与人工语言模型进行有效沟通的能力。它不只是把一个问题问得更好。它意味着理解模型需要什么,才能按照用户意图行动。与人类对话不同,人可以提出澄清问题、猜测你的意图,或适应歧义;大型语言模型更像一台概率引擎。除非用户用精心设计的指令进行干预,否则它会根据统计上最可能出现的内容来补全用户的提示。

发展提示素养需要一种思维方式的转变。许多用户接触语言模型的方式,就像他们使用 Google 搜索或语音助手一样。他们输入简短、模糊的查询,然后期待系统推断出他们的真实意图。另一些人则把它当作聊天机器人,依赖非正式或对话式语气,而不提供结构。这些习惯在简单任务中或许能得到可用结果,但在复杂、敏感或专业场景中很快就会失效。在提示中,清晰性的负担完全落在用户身上。

这种转变本质上既是认知上的,也是语言上的。它要求用户像教学设计者那样思考,而不是像聊天者那样思考。提示词必须定义任务、受众、预期格式以及任何排除项。它们必须预判失败模式,例如幻觉或泛泛而谈的回答,并通过具体性提前防止这些问题。这样一来,提示素养开始像一门手艺:一部分是语言使用,一部分是界面设计,一部分是策略思考。它是一种模拟控制的素养,用户学习如何在无法访问底层代码的情况下塑造模型行为。

重要的是,这种转变并不限于工程师、开发者和技术专家,而是扩展到了更广泛的人群。任何与 AI 系统互动的人,包括教育工作者、政策制定者、研究人员和艺术家,都可以从发展这种素养中受益。随着语言模型被嵌入工具、平台和工作流,写出有效提示的能力会变得像使用电子邮件或编辑文档一样基础。提示不只是一项技巧;它是机器生成语言时代的一种作者行为。

掌握这种新的素养,需要接触、反思和实践。它也需要一套新的词汇,一种共享语言,用来描述不同的提示类型、输出风格和系统行为。在接下来的几节中,我们将建立这一基础。我们不是要规定僵硬规则,而是要介绍那些让提示变得可理解、可测试、可改进的概念和策略。提示素养始于意识,但成熟于设计。

3.3 语言基础:清晰性、顺序与范围

大型语言模型是通过统计预测来模拟意义,而不是理解意义。这个简单事实对我们应该如何撰写提示词有深远影响。统计语言模型缺乏人类推断意图、解决歧义或补充缺失上下文的能力,除非这些模式已经在其训练数据中被明确强化。这些系统并不像人类那样理解意义,而是基于训练语料中的概率模式生成回应。因此,有效提示需要特别关注三个语言维度:表达清晰性、逻辑顺序和精确的范围定义。

清晰性指的是提示词在多大程度上明确传达了意图。人类读者常常可以通过共享上下文或情感直觉来容忍模糊指令;机器则不能。例如,“Summarize this”这样的请求,没有说明受众、语气、格式或长度。模型可能会流畅地回应,但它的输出会因为训练数据中的隐含偏差、过往示例,甚至生成过程中的随机性而产生巨大差异。相反,一条清晰的提示,例如“请用通俗英语,为高中生受众写一段 100 词摘要,只聚焦主要论点”,会提供减少这种变动的约束,使输出更有用。

信息呈现的顺序,无论是词序、任务顺序,甚至标点,都会直接影响模型回应,尤其是在处理多步骤指令时。例如,“先写一个结论,然后解释你是如何得出这个结论的”和“先解释你的推理过程,然后写出结论”,会产生不同结果。模型对结构线索非常敏感,因为它们是把文本作为依赖链来处理,而不是作为思想层级来处理。顺序混乱的提示往往会生成不连贯或截断的输出,尤其是在任务复杂或包含嵌套结构时。

范围指的是任务边界。许多提示失败,是因为用户一次要求太多,或没有说明应该包含什么、排除什么。比如“描述全球化的经济、政治和文化后果”这样的提示,对人类来说似乎合理,但对模型来说,它过于庞大且说明不足。没有字数、时间范围或地域等约束,模型可能会漂移、膨胀,或停留在表层泛化上。有效提示会定义自己的边界:模型应该覆盖什么,同样也要说明不应该覆盖什么。

人类提示者面临的挑战是,自然语言往往包含歧义、非线性和丰富上下文——这些特征会增强人类对话,却会给统计模型带来困难。因此,提示需要一种有纪律的语言使用方式,语言学家或许会称之为低歧义、高指令性的语篇。提示词必须避免没有所指对象的代词、没有锚点的修饰语,或依赖人类共享知识而不是机器学习关联的术语。

从教学角度看,本节强化了一个关键转变:提示不是随意写作。它不是表达性的、诗意的或推测性的,除非你明确要求它这样做。它是一种教学设计形式,因此需要具备法律起草、技术写作或流程文档中同样的语言纪律。清晰性确保模型正确理解任务。顺序确保模型连贯执行任务。范围确保模型不偏离轨道。

这三个维度共同构成提示素养的核心。它们并不能保证完美结果——任何提示都不能——但它们可以最大限度地对齐人类意图与机器输出。忽视这些维度时,即便是最复杂的 AI 系统,也会退回到浅层模式匹配和通用回答。当这些原则被审慎应用时,它们会把提示词从一个问题转化为一个框架,从一个建议转化为一条可执行指令。

3.4 提示类型:一次性提示、角色型提示、指令型提示

在本章中,“预提示”(pre-prompt)指的是在主要指令之前设置上下文的文本,而“后续提示”(follow-up prompt)则指任何用于细化、扩展或纠正初始回答的后续指令。要熟练掌握提示素养,最有效的方式之一,就是理解那些会塑造模型行为的提示结构类型。并不是所有提示都服务于同一种功能,也不是所有提示都以同样的精确程度引导模型。虽然提示形式有无数变化,但三种基本提示类型已经成为基础:一次性提示、角色型提示和指令型提示。每一种都提供一种不同的可供性,学习何时以及如何使用它们,是任何使用语言模型的人都必须掌握的技能。

一次性提示指的是完成任务时最直接的方式。它提供一个单一示例、请求或模板,然后要求模型以同样方式继续。例如,如果用户写下:“Translate the following sentence into French: ‘I am learning AI,’”然后就停止,模型很可能会立即给出翻译。这类提示快速、紧凑且高效,但它依赖隐含上下文。模型完全基于模式识别来推断动作。因此,一次性提示很适合翻译、摘要或句子纠错等直接任务。然而,在需要细致理解、约束或受众适配的场景中,它往往表现不足。

角色型提示通过为模型指定一个特定身份或视角,引入额外的具体性。例如,用户可能以“你是一位为非营利组织提供建议的法律专家”或“你是一位以同理心回应年轻来访者的治疗师”开头。这些提示通过激活模型训练数据中的相关模式,帮助框定模型的语气、词汇和视角。角色型提示特别适用于需要专业、风格或伦理约束的输出。用户并不是直接给出指令,而是通过指定模型应当扮演的人设来引导其回答。

相比之下,指令型提示会用明确的指令语言来组织请求。它不依赖示例续写或身份框定,而是精确告诉模型该做什么。这类提示通常包含诸如 summarize、list、compare、rephrase、predict 或 critique 等动词,也可能包含多个从句,用来定义任务、格式和目标受众。例如,用户可能写道:“请将以下文章总结为三个要点,适合不了解该主题的政策制定者阅读。使用清晰、非技术性的语言。”这种提示像命令一样发挥作用,通常能生成高度结构化且可解释的输出。

这些提示类型各有优势和局限,具体取决于手头任务。一次性提示速度快,但脆弱。角色型提示适应性强,但依赖上下文。指令型提示明确,但如果措辞不够谨慎,可能导致冗长或违反约束。在实践中,许多有效提示会组合这些类型;例如,先指定角色,再提供指令,或者先给出示例,再附加任务描述。理解每种提示类型的语法,可以让用户更流畅地混合和调整它们。

随着用户越来越熟悉这些结构,他们就能更精细地控制模型输出。更重要的是,他们会开始把提示不再看作机械查询,而是看作一种修辞行为:一种塑造用户、模型与目标结果之间关系的方式。就像熟练写作者会在不同叙事模式或句式之间作选择一样,提示词工程师也会选择适当的提示类型来实现预期的沟通目标。这种流利度,正是随意实验和策略性设计之间的区别。

3.5 格式与风格控制:语气、长度和输出塑形

在任何沟通交换中,“说什么”只是信息的一部分。“怎么说”——语气、结构、长度和格式——在决定输出是否可用、合适或有说服力方面,同样发挥着关键作用。这个原则同样适用于提示大型语言模型。如果提示词把这些风格或结构预期保持为隐含状态,模型就会根据一般统计规范生成答案,而这些规范未必符合用户预期含义。如果提示词明确指定这些预期,模型就更可能生成符合目标沟通场景的输出。因此,学习控制格式和风格,是提示词工程实践的核心。

语气控制让用户能够塑造模型声音中的情感色彩、正式程度和个性。例如,医疗专业人士在为患者撰写指导内容时,可能要求模型以平静、安抚性的语气生成回应。相反,同样的信息如果提供给政策制定者,就可能需要显得中立、技术性强且权威。像“用正式语气写”或“使用适合青少年的对话式声音”这样的措辞,可以显著改变模型组织语言、比喻和修辞策略的方式。核心内容可能保持不变,但语气会影响它被接收和理解的方式。

长度控制虽然看起来简单,但往往需要仔细校准。如果没有指定长度,模型可能会倾向于过度解释或漫无边际地展开,尤其是在低风险语境中,因为冗长在统计上很常见。然而,在专业场景中,例如资助申请、新闻稿和法律备忘录,每个词都很重要。像“用 150 词以内”或“最多使用三个要点”这样的提示,可以帮助确保模型输出符合预定义约束。这类约束在输出会被下游使用的系统中特别有用,例如用于发布的摘要或自动化格式处理管线。通过定义回答长度的上限和下限,提示词工程师可以减少漂移,并让输出更容易审查、复用或嵌入。

输出格式控制指的是定义模型回答的结构形态:它应该是段落、列表、表格、Markdown 文档,还是结构化 JSON 输出。当模型被集成进工作流或应用时,这一点变得尤为重要。例如,如果提示指定“用一个三列表格比较风险、收益和未知项”,模型就会尝试按这种格式组织输出。类似地,要求“编号步骤列表”或“五段式文章”的提示,会调用可识别的文本模式,从而塑造模型的生成逻辑。格式脚手架作为一种结构边界,可以减少不确定性并提升可读性。

语气、长度和格式共同构成围绕模型内容的风格框架。当这些元素在提示中被明确表达时,模型输出不仅会更可用,也会更值得信赖,尤其是在需要专业严谨性的语境中。也正是在这里,提示词工程不再是随意互动,而成为一种沟通设计工具。

掌握格式与风格控制,也支持可访问性和伦理责任。精心设计的提示会有意识地引导模型,根据特定读者调整技术信息:可以为年轻学习者简化解释,也可以为神经多样性受众使用更易访问的格式。这表明,受众意识从根本上决定了沟通效果。这种方法把提示转变为一种对齐练习:它不仅考虑即时任务,也考虑目标读者、制度框架和更广泛的社会语境。

3.6 常见问题:幻觉、漂移与膨胀

即使是出于善意、写出看似清晰提示的用户,也可能遇到输出质量的严重崩塌。这些失败往往不是随机的,而是源自语言模型解释和生成回应方式中的可预测弱点。因此,提示词工程不仅需要知道如何让事情顺利进行,也需要理解事情如何以及为什么出错。本节介绍用户最常遇到的三种失败模式:幻觉、漂移和膨胀。每一种都反映了一种不同类型的崩塌,会显著影响输出的可靠性和可用性。

幻觉指的是模型以看似自信的方式生成虚假或编造内容。这种失败在医学、法律或学术研究等高风险领域尤其危险,因为事实准确性在这些领域不可妥协。幻觉可以有多种形式:引用不存在的来源,编造统计数据,或生成听起来合理但错误的历史或技术细节。幻觉之所以发生,是因为模型并没有实时对照一个有根据的数据库来验证事实;相反,它是在调用训练期间观察到的语言模式。除非被明确要求验证来源、说明确定性程度或标记推测内容,否则模型可能默认使用权威式语气,即便它实际上只是在猜测。

相比之下,漂移发生在模型逐渐偏离主题、误解任务范围,或开始引入无关信息的时候。这种输出退化在长提示或说明不足的提示中很常见。例如,要求“解释医疗领域 AI 的伦理风险”,可能一开始回答得不错,但最终会跑到 AI 在教育或金融领域的应用上。漂移反映的是这样一种倾向:一旦模型失去清晰的结构锚点,就会用统计上可能相关的内容来填充空间。没有明确的范围、长度或格式限制,模型可能会试图通过远远超出预期主题的展开来表现“有帮助”。

膨胀指的是 AI 生成回答中过度冗长或重复的部分。这可能表现为重复短语、过度谨慎的限定语,或增加长度却不增加价值的通用填充内容。虽然膨胀不像幻觉那样危险,但它会削弱清晰度和效率。在用户需要快速浏览或重新利用输出的场景中,例如执行摘要、简报或系统生成报告,它尤其成问题。未能指定简洁性、目标受众或使用目的的提示,会给模型留下太多过度展开的空间。当用户没有精确定义修辞任务时,模型往往会默认采用膨胀式风格。

幻觉、漂移和膨胀这三种失败模式,是同一个底层问题的症状:用户意图与模型默认生成行为之间发生错配。有效提示试图通过让指令更加明确、结构化和有边界来缩小这种差距。脚手架、角色定义、事实核查和格式指定等技术,都有助于缓解这些失败。例如,要求模型引用来源、用要点总结,或“只在以下类别内回答”,可以激活内部约束,从而降低风险。

然而,即使经过仔细提示,有些错误仍然无法避免。这并不说明提示设计不好,而是提醒我们:语言模型是模式引擎,而不是知识主体。这些系统并不“知道”什么是真的、什么是假的;它们是在基于模式模拟可能的答案。这一根本限制意味着,用户必须保持警惕和批判,不仅要审视模型说了什么,也要审视它如何表达以及为什么这样表达。后续章节会进一步扩展这些安全原则,展示抑制型提示、建议免责声明和明确安全约束如何在敏感或高风险场景中帮助缓解不可接受的输出。

理解这些失败模式不仅是技术问题,也是教学问题。教会用户如何识别并处理幻觉、漂移和膨胀,能够帮助他们成为更有辨别力的提示词工程师、AI 生成文本的读者和写作者。下一节将探讨如何把模型不只是当作一次性回应者,而是当作迭代对话中的参与者,从而让用户能够实时纠偏和优化输出。

3.7 重构与优化:把提示视为对话

提示并不是一次性的交易,而是用户与模型之间不断演化的对话。许多用户把 AI 交互当成一种静态的“查询—回应”机制,类似于在搜索引擎中输入问题;但实际的提示词工程要求一种更加动态的思维方式。本节介绍一个对提升输出质量和用户控制力都非常关键的原则:重构与优化的艺术。它把提示视为一种迭代对话,而不是单向独白,强调修订、重定向和分层探索。

重构指的是重新撰写提示,以澄清目标、缩小范围,或重新定位意图的过程。当模型初始输出不准确、冗长、偏离主题或风格不合适时,这一点尤其重要。熟练用户不会放弃任务,也不会接受有缺陷的输出,而是会后退一步,检查结果,然后用更高精度修改原始指令。例如,如果“Explain climate change”得到的回答不令人满意,可以重构为:“请用 150 词概述气候变化的主要原因,使用适合中学生的通俗语言。”这种微妙转变引入了范围、风格和受众约束,从而提高下一次输出成功的可能性。

用户通过提供纠正性或增强性指令来优化输出,也就是在已生成内容基础上继续推进,而不是从头开始。这可能包括:“让这段更简洁”“添加两个真实案例”或“改写成政策备忘录的语气”。这些指令表明,用户并不只是消费 AI 的回应,而是在塑造它,通过迭代引导模型与特定语境下的目标对齐。优化过程反映了真实世界中的编辑实践:协作者提供反馈、进行修订,并通过迭代改进逐步发展作品。

这种实践反映了一种更深层的概念转变。在传统人机交互中,用户发布命令,然后期待系统执行。然而,面对大型语言模型,用户是在共同引导一个包含歧义、解释和风格变化的生成过程。模型并不是一个单纯执行命令的仆人;它是一个概率性的协作者,会提供需要校准的近似结果。因此,提示成为一种增量控制的技艺:通过澄清、调整和测试的循环来引导输出。

对话模型也允许教学性脚手架。通过要求模型“解释你的推理”“列出不确定性”或“将你的回答与专家意见进行比较”,用户可以让 AI 显得更加透明和自知。这并不是因为模型真的理解了,而是因为它能够模拟自我解释。在教育环境中,这支持批判性思维。在专业场景中,它为决策支持增加可追踪性。在创意工作中,它使用户能够先探索多种风格或概念路径,再选择最终版本。

从这个角度看,提示成为一种交互式设计过程,而不是线性交易。就像平面设计师反复调整版式,或软件工程师重构代码一样,提示词工程师会修订问题和指令,以优化系统行为。重要的是,这种心态也支持错误恢复。当模型生成幻觉内容或偏离主题时,用户可以用纠正来回应,而不是沮丧:“只使用可验证来源”,或“排除与欧盟数据政策无关的信息”。

掌握重构与优化,意味着同时获得战略耐心和分析敏捷性。它鼓励用户摆脱把提示视为固定技能的想法,而把它视为一种持续实践:一种与 AI 这个可塑伙伴进行对话式思考问题的方式。正如下节将展示的,甚至我们用来描述提示、失败和格式的术语,也会影响我们如何学习、教学和评估这一新兴学科中的成功。第 4 章中的一个紧凑示例,将展示如何把重构、链式提示和优化结合到一个单一的多步骤序列中。

3.8 提示词工程的语言:人人都能理解的术语表

随着提示词工程成熟为一门专业学科,它也带来了一套新的词汇。像任何技术领域一样,它依赖特定术语来描述过程、行为和设计模式,否则这些内容就可能变得含糊或被误解。然而,这种新兴语言常常借用计算机科学、语言学和机器学习中的概念,这使得没有相关训练背景的人难以理解。本节提供一份简洁、对读者友好的关键术语表,并将术语嵌入解释性句子之中,帮助形成流利理解,而不是死记硬背。

“提示词”(prompt)这个术语本身,指的是用户用于引导语言模型回应的输入。它不仅仅是一个问题或指令,而是一条带有结构性和策略性意图的设计消息。这个概念的变体包括“指令型提示”(instructional prompting),也就是发出直接命令;以及“角色型提示”(role-based prompting),即用户为模型指定一个人设或功能,例如“扮演一名金融分析师”。

零样本提示(zero-shot prompting)代表另一个核心原则,即模型只根据任务描述来完成任务,不提供示例,完全依赖其训练中获得的泛化能力。相比之下,“少样本提示”(few-shot prompting)会包含一个或多个示例,帮助模型推断预期模式。这一区分对于理解模型如何在没有显式编程的情况下推断任务结构至关重要。

上下文窗口定义了模型在任意时刻的最大信息容量,它以 token 而不是词来衡量。当用户超过这一限制时,模型可能会丢弃对话中较早的元素,从而可能导致回答漂移或不准确。锚定(anchoring)会有策略地把关键指令放在提示词开头,以确保它们被优先处理。相较之下,扎根(grounding)则是把模型输出锚定到具体、可验证的来源上,而不是依赖一般知识。

“幻觉”(hallucination)已经成为一个简写词,用来指模型生成看似合理但虚假的内容的倾向。这个术语可以包括编造统计数据、引用,甚至虚构人物。与之相关的是“漂移”(drift),即模型逐渐偏离主题;以及“膨胀”(bloat),即模型提供过多或重复的信息。这些失败模式通常源于模糊或过长的提示,需要更精确的框定来避免。

“脚手架”(scaffolding)指的是将复杂任务拆分为阶段或层次的技术,使模型能够更清晰、更系统地推理。这一技术包括“逐步提示”(step-by-step prompting),即用户在一次输入中指定任务的每个阶段;也包括“轮次式提示”(turn-based prompting),即对输出进行评估,并按顺序优化。与这些相关的是“链式提示”(chaining),即把一个提示的输出作为下一个提示的输入,从而形成一条指令管线。

在本章中,脚手架指的是把任务拆成内部阶段;链式提示指的是把一个提示的输出连接到下一个提示;嵌套提示(nested prompting)则指把多条指令组合进一条提示中,而不是跨多个连续轮次展开。

抑制(suppression)会明确要求模型省略某些内容类型,例如背景解释或示例;而聚焦提示(focus prompting)则同时将回应限制在特定领域、受众或长度要求内。这些技术对于控制冗长程度,并确保输出满足特定约束至关重要。

提示词工程术语表也包括社会和伦理术语。“拟人化”(anthropomorphism)描述的是把人类特征投射到模型上的倾向,例如把意图或理解归因于模型。这是一种常见误解,会削弱有效使用。“对齐”(alignment)确保模型输出遵循人类价值、用户意图和机构目标;而元提示(meta-prompting)则指示模型通过模拟自我批判或反思性改进流程来评估自己的回答。

通过把这些术语融入日常提示实践,用户可以从直觉走向有意图的操作。他们获得的不只是描述什么有效或失败的词汇,也获得了教学、排障和迭代所需的语言。这份术语表不只是参考资料;它是一座概念桥梁,支持用户从随意使用过渡到熟练素养。在下一章中,随着我们探索复杂提示系统的架构及其在真实任务中的应用,这些术语会变得越来越重要。第 4 章会提供一张简短对照表,总结这些结构化方法在目的和顺序上的差异。

3.9 小结

本章解释了从非正式提示习惯走向有意图提示素养的过程。它说明了为什么 LLM 并不像搜索引擎或规则型聊天机器人那样运作,并展示了这种变化为何要求用户采用结构化指令,而不是对话式措辞。本章介绍了核心语言原则,包括清晰性、顺序和范围,并通过一次性提示、角色型提示和指令型提示的示例进行说明。

本章还介绍了语气、长度和输出格式的实践控制技术,并分析了三种反复出现的失败模式:幻觉、漂移和膨胀。它展示了重构和迭代优化如何强化控制力并改善对齐。章节最后提供了一份简短术语表,为读者进入后续章节中的更高级提示方法准备共享术语。本章末尾的测验题现在会测试对链式提示、嵌套结构和条件提示的识别,将其作为核心提示素养技能的一部分。

3.10 自测题

1. 在与大型语言模型互动的语境中,提示素养的主要目的是什么?

a) 记住标准 AI 输出,并在不同任务中重复使用。

b) 用机器可读语法格式化回应。

c) 使用户能够与 LLM 进行清晰、有意图且结构化的沟通。

d) 评估 Transformer 模型的内部准确性。


2. 以下哪一项最准确地定义了语言模型输出中的“幻觉”?

a) 使用隐喻语言写成的生动叙事。

b) 过短而无法满足提示意图的输出。

c) 以事实形式呈现的编造或不准确回应。

d) 以诗歌形式生成的创造性回应。


3. 为什么角色型提示被认为适合用于塑造 AI 回应?

a) 它们可以减少生成过程中使用的 token 数量。

b) 它们允许模型采用预定义视角或功能。

c) 它们会关闭与推理无关的其他模型能力。

d) 它们允许用户绕过语言歧义。


4. 当模型输出逐渐偏离预期主题或任务时,用哪个术语来描述这种现象?

a) 压缩。

b) 框定。

c) 漂移。

d) 强化。


5. 用户在为 LLM 设计提示时,如何减少歧义并增强控制力?

a) 避免技术词汇,只使用隐喻。

b) 加入更多表情符号和标点符号。

c) 指定范围、语气、结构和目标受众。

d) 让模型自行选择回应格式。