Prompt的定义:
Prompt(提示)是用户或系统向大型语言模型(LLM)提供的输入,其核心目的是引导模型生成特定类型的输出或执行特定任务。它可以是一段文本、一个问题、一组指令,甚至包含示例。从本质上讲,Prompt是人与LLM之间进行交互的“指令”或“线索”,其质量直接影响LLM的响应质量和任务完成度。如 Prompt Engineering Guide 所述,提示工程关注提示词的开发和优化。而 知乎专栏文章 指出,提示工程探讨如何设计最佳提示词以指导模型高效完成任务。
Prompt的核心构成要素:
一个精心设计的Prompt通常包含以下一个或多个核心要素,这些要素协同作用以精确指导LLM的行为 (CSDN博客:Prompt Engineering深入指南, Prompt Engineering Guide: Basics):
- 指令 (Instruction/Directive): 这是Prompt的核心,明确告知模型需要执行的具体任务或动作。例如:“总结以下文章的主要观点”,“将这段英文翻译成法文”,“写一首关于星空的五言绝句”。
- 上下文 (Context): 提供必要的背景信息、世界知识、对话历史或Few-shot示例(输入-输出对),帮助模型更好地理解任务情境,锚定回答范围,或学习特定的响应模式。例如,在进行情感分析时,可以提供几对“文本-情感标签”的示例。
- 输入数据 (Input Data): 针对特定任务,用户提供的需要模型进行处理、分析、转换或基于其生成内容的核心信息。例如,一篇需要摘要的文章,一个需要回答的具体问题,一段需要风格转换的文本。
- 输出指示器/格式 (Output Indicator/Format): 明确规定模型输出结果的期望形式、结构、风格、长度、语言等。例如:“请以JSON格式返回结果,包含'name'和'email'字段”,“答案请以无序列表形式展示”,“生成的摘要不得超过100字”。
多模态Prompt:
随着多模态大型语言模型(能同时处理文本、图像、音频、视频等多种信息模态的模型)的发展,Prompt的概念也从单一的文本输入扩展到了多模态输入。用户现在可以通过组合不同模态的信息来更丰富、更精确地表达意图 (CSDN博客:Prompt Engineering深入指南)。
- 文本 + 图像 Prompt: 例如,用户提供一张图片和一段文字描述“将这张照片中的狗变成一只猫,保持背景不变”,引导AI模型进行图像编辑。
- 文本 + 音频 Prompt: 例如,提供一段会议录音和指令“总结这段录音的主要内容,并提取出所有的行动项”。
- 更复杂的组合: 未来可能涉及视频、3D模型等更多模态的组合输入,对Prompt的设计提出了新的挑战和机遇。