本指南分享了获得更好GPT效果的策略和技巧。这里描述的方法有时可以联合使用以取得更大效果。
写明确的指示
GPT无法读取你的思想。如果输出太长,请要求简短的回复。如果输出过于简单,请要求专家级写作。如果你不喜欢格式,请展示你想要看到的格式。GPT需要猜测你想要什么的越少,你得到想要的结果的可能性就越大。
1. 在提问中加入细节以获取更相关的答案
为了获得高度相关的响应,请确保请求提供任何重要的细节或上下文。否则,你就得让模型去猜你的意思了。
| 差的 | 好的 |
|---|---|
| 如何在Excel中相加数字? | 如何在Excel中对一整行的金额进行相加?我想对整张表格的所有行自动进行此操作,所有的总计最终会出现在名为“总计”的一列的右边。 |
| 写代码计算斐波那契数列。 | 写一个TypeScript函数来高效计算斐波那契数列。在代码中添加大量注释,解释每一部分的作用以及为什么这样写。 |
| 概述会议纪要 | 将会议纪要概述为一个段落。然后写一个markdown列表,列出发言者和他们每个人的主要观点。最后,列出发言者建议的后续步骤或行动事项(如果有的话)。 |
2. 要求模型采用一个角色
可以使用系统信息来指定模型在回复中使用的角色。
SYSTEM |
当我请求帮助来写东西时,你会回复包含至少每段都有一个笑话或玩笑评论的文档。 |
USER |
写一封感谢信给我的螺栓供应商,感谢他们准时交付货物,并在短时间内通知我们。这使我们能够按时交付重要订单。 |
3. 使用定界符明确指明输入的不同部分
像三个引号、XML标签、节标题等定界符可以帮助划分需要不同处理的文本段落。
USER |
用一个俳句概括下面以三个引号标记的文本。 """在此插入文本""" |
SYSTEM |
您将获得一对关于同一主题的文章(用XML标签划分)。首先总结每篇文章的论点。然后指出其中哪篇文章更有说服力,并解释为什么。 |
USER |
<article>此处插入第一篇文章</article> <article>此处插入第二篇文章</article> |
SYSTEM |
您将得到一个论文摘要和一个建议的论文标题。论文标题应该能让读者对论文主题有一个良好的概念,同时也应具有吸引力。如果标题没有满足这些标准,请建议5个替代标题。 |
USER |
摘要:在此插入摘要 标题:在此插入标题 |
对于这样直截了当的任务,使用分隔符可能不会对输出质量产生影响。然而,任务越复杂,区分任务细节就越重要。不要让 GPT 费力理解您究竟在要求什么。
4. 明确指定完成任务所需的步骤
有些任务最好以一系列步骤的形式明确指出来。把步骤明确写出来可以让模型更容易遵循。
SYSTEM |
请按照以下逐步说明回答用户输入。 步骤1 - 用户会在三个引号内提供文本。用一个前缀“总结:”对该文本进行一句话概括。 步骤2 - 将步骤1中的概括翻译成中文,加上前缀“翻译:”。 |
USER |
"""在此插入文本""" |
5. 提供示例
相较于通过示例演示完成某项任务的所有可能的组合,提供适用于所有示例的一般性指导通常更有效率,但在某些情况下提供示例可能更简单。例如,如果你希望模型能复制对用户查询的某种特定的、难以明确描述的响应方式,这时提供几个示例会更好。这被称为“少样本”提示。
SYSTEM |
用一致的风格回答。 |
USER |
教教我关于耐心。 |
ASSISTANT |
最深切的峡谷来自微不足道的山泉;最宏大的交响乐源于单一的音符;最复杂的挂毯始于孤单的一根线。 |
USER |
教教我关于海洋。 |
6. 指定所需的输出长度
你可以要求模型生成给定目标长度的输出。目标输出长度可以用词数、句数、段数、列表项数等来指定。然而,请注意,指示模型生成特定数量的词并不能非常精确地工作。模型可以更可靠地生成包含特定段落数或列表项数的输出。
USER |
在约50个词内总结用三个引号括起来的文本: """在此插入文本""" |
USER |
将用三个引号括起来的文本总结为2段: """在此插入文本""" |
USER |
用3个列表项来总结用三个引号括起来的文本: """在此插入文本""" |
提供参考文本
GPT 可以自信地创造虚假答案,特别是当被问及深奥的话题或引用和URL时。就像一张笔记可以帮助学生在考试中表现更好一样,向GPT提供参考文本可以帮助其在回答问题时减少虚构的内容。
1. 指示模型使用参考文本回答问题
如果我们能够向模型提供与当前查询相关的可信信息,那么我们可以指示模型使用提供的信息来组成其答案。
SYSTEM |
使用用三重引号括起来的提供的文章来回答问题。如果答案在文章中找不到,则写下“我找不到答案”。 |
USER |
<插入文章,每个文章都用三重引号括起来> 问题:<在此插入问题> |
鉴于GPT具有有限的上下文窗口,为了应用这种策略,我们需要一些方法来动态查找与所提问的问题相关的信息。嵌入可以用于实现高效的知识检索。有关如何实现此操作的更多详细信息,请参见策略“使用基于嵌入的搜索实现高效的知识检索”。
2. 指导模型通过引用参考文本来回答问题
如果输入已经补充了相关知识,那么可以简单地要求模型通过引用提供的文档中的段落来添加引用到它的答案中。请注意,输出中的引用可以通过在提供的文档中进行字符串匹配来进行编程验证。
SYSTEM |
您将获得一个由三重引号分隔的文档和一个问题。您的任务是仅使用所提供的文档回答问题,并引用用于回答问题的文档段落。如果文档中不包含回答此问题所需的信息,则只需写上:“信息不足。”如果提供了问题的答案,则必须附带引用。使用以下格式引用相关段落({"citation": …})。 |
USER |
"""<在此插入文档>""" 问题:<插入问题> |
将复杂任务分解成简单的子任务
就像在软件工程中将复杂系统分解为一组模块化组件一样,对提交给GPT的任务也是如此。复杂任务往往比简单任务具有更高的错误率。此外,复杂的任务通常可以重新定义为一系列简单任务的工作流程,其中早期任务的输出用于构造后续任务的输入。
1. 使用意图分类来识别用户查询的最相关指令
对于需要处理不同情况的许多独立指令集的任务,首先将查询类型分类,并使用该分类确定需要哪些指令,这将会有益处。可以通过定义固定类别并硬编码与处理给定类别任务相关的指令来实现这一点。这个过程也可以递归地应用于将任务分解为一系列阶段。这种方法的优点是每个查询仅包含执行任务下一阶段所需的那些指令,这可能导致比使用单个查询执行整个任务的错误率更低。这也可能会导致更低的成本,因为更大的提示费用更高(请参见定价信息)。
例如,假设对于客户服务应用程序,查询可以有用地分类如下:
SYSTEM |
您将获得客户服务查询。将每个查询分类为主要类别和次要类别。使用json格式提供您的输出,其中键为:primary和secondary。
主要类别:账单、技术支持、账户管理或常规查询。 账单次要类别:
技术支持次要类别:
账户管理次要类别:
常规查询次要类别:
|
USER |
我需要让我的互联网再次工作起来。 |
根据客户查询的分类,可以向 GPT 模型提供一组更具体的指令以处理下一步操作。例如,假设客户需要“故障排除”方面的帮助。
SYSTEM |
您将收到需要在技术支持环境中进行故障排除的客户服务查询。通过以下方式帮助用户:
<在上面插入主/次分类方案> |
USER | 我需要让我的互联网再次工作起来。 |
注意,该模型已被指示发出特殊的字符串来指示对话状态何时发生变化。这使我们能够将我们的系统转化为状态机,其中状态确定注入哪些指令。通过跟踪状态,确定在该状态下哪些指令是相关的,以及可选地确定从该状态允许哪些状态转换,我们可以在用户体验周围设置防护栏,这是使用较少结构化方法很难实现的。
2. 对于需要进行非常长时间对话的对话应用程序,请总结或过滤先前的对话内容。
由于GPT具有固定的上下文长度,如果用户和助手之间的对话在上下文窗口中包含了整个对话,那么对话就无法无限期地继续下去。
解决这个问题的方法有很多,其中之一是总结先前的对话内容。一旦输入的大小达到预定的阈值长度,这可能会触发一个查询,对对话内容的一部分进行总结,并将先前的对话总结作为系统消息的一部分包含在内。或者,先前的对话内容可以在整个对话期间在后台异步地进行总结。
另一种解决方案是动态选择与当前查询最相关的先前对话部分。请参阅策略“使用基于嵌入的搜索实现高效的知识检索”。
3. 分段总结长文档并递归构建完整摘要
由于GPT模型具有固定的上下文长度,单个查询无法用于总结超过上下文长度减去生成摘要长度的长文本。
为了总结非常长的文档,比如一本书,我们可以使用一系列查询来总结文档的每个部分。将各个部分的摘要连接起来并进行总结,就可以得到摘要的摘要。这个过程可以递归进行,直到整个文档被总结完毕。如果需要使用先前部分的信息以理解后续部分,那么一个有用的进一步技巧是,在总结给定部分的内容时,包括一份在该书任何给定点之前的文本的运行摘要。OpenAI曾使用GPT-3的变体进行过总结书籍的研究,证明了这种方法的有效性。
给GPT时间“思考”
如果让你计算17乘以28,你可能不会立刻知道答案,但仍然可以用时间来计算。同样,当试图立即回答问题时,GPT 会出现更多的推理错误,而不是花时间来计算答案。在回答问题之前要求进行一系列推理可以帮助 GPT 更可靠地推理出正确的答案。
1. 在匆忙得出结论之前,指示模型自行解决问题
有时候,我们明确地指示模型在得出结论之前从第一原理进行推理,会获得更好的结果。例如,假设我们希望一个模型评估学生对数学问题的解决方案。最明显的方法是简单地询问模型学生的解决方案是否正确。
SYSTEM |
判断学生的解决方案是否正确。 |
USER |
问题陈述:我正在建造一个太阳能发电装置,我需要帮助计算财务数据。
学生的解决方案:设x为以平方米为单位的安装面积。
|
ASSISTANT |
学生的解决方案是正确的。 |
但是学生的解决方案实际上并不正确!我们可以通过提示模型先生成它自己的解决方案来让模型成功地注意到这一点。
SYSTEM |
首先自己解决问题。然后将您的解决方案与学生的解决方案进行比较,并评估学生的解决方案是否正确。在自己解决问题之前,不要决定学生的解决方案是否正确。 |
USER |
问题陈述:我正在建造一个太阳能发电装置,我需要帮助计算财务数据。
学生的解决方案:设x为以平方米为单位的安装面积。
|
ASSISTANT |
设x为太阳能电站的面积(平方米)。
1.土地成本:100x 学生的解决方案是不正确的。他们在计算维护成本时犯了错误,使用了100x而不是10x。第一年运营的正确总成本为360x + 100,000。 |
2. 使用内心独白或一系列的查询来隐藏模型的推理过程
前面的策略表明,在回答具体问题之前,模型有时需要详细地推理一个问题。对于某些应用程序,模型用来得出最终答案的推理过程可能不适合与用户分享。例如,在辅导应用程序中,我们可能希望鼓励学生自己解决问题,但是模型关于学生解决方案的推理过程可能会向学生透露答案。
内心独白是一种可用于缓解这种情况的策略。内心独白的想法是指示模型将那些要隐藏在用户视线之外的输出部分放入一个结构化格式中,以便于解析。然后,在向用户呈现输出之前,对输出进行解析,只有部分输出是可见的。
SYSTEM |
按照以下步骤回答用户的问题。
第一步-首先解决问题并找出自己的解决方案。不要依赖学生的解决方案,因为它可能是不正确的。在此步骤中,将所有工作都用三重引号(""")括起来。 第二步-将您的解决方案与学生的解决方案进行比较,并评估学生的解决方案是否正确。在此步骤中,将所有工作都用三重引号(""")括起来。 第三步-如果学生犯了错误,请确定您可以给出什么提示,而不会泄露答案。在此步骤中,将所有工作都用三重引号(""")括起来。 第四步-如果学生犯了错误,请向学生提供来自上一步的提示(三重引号之外)。而不是写“第四步-……”,请写“提示:”。 |
USER | 问题陈述:<插入问题陈述> 学生解决方案: <插入学生解决方案> |
或者,这可以通过一系列查询来实现,其中除了最后一个查询之外,所有查询的输出都对最终用户隐藏起来。
首先,我们可以让模型自己解决这个问题。由于这个初始查询不需要学生的解决方案,因此可以省略它。这提供了额外的优势,即模型的解决方案不会受到学生尝试的解决方案的影响。
USER |
<插入问题陈述> |
接下来,我们可以让模型使用所有可用信息来评估学生解决方案的正确性。
SYSTEM |
比较你的解决方案和学生的解决方案,并评估学生的解决方案是否正确。 |
USER |
问题陈述:"""<插入问题陈述>"""
你的解决方案:"""<插入模型生成的解决方案>""" 学生的解决方案:"""<插入学生的解决方案>""" |
最后,我们可以让模型利用自己的分析能力,以一个有帮助的导师的角色构建回复。
SYSTEM |
您是一名数学导师。如果学生犯了错误,请以不透露答案的方式向学生提供提示。如果学生没有犯错误,只需向他们提供鼓励性的评论。 |
USER |
问题陈述:"""<插入问题陈述>"""
你的解决方案:"""<插入模型生成的解决方案>""" 学生的解决方案:"""<插入学生的解决方案>""" 分析:"""<插入从前一步生成的分析>""" |
3. 询问模型是否遗漏了之前的内容
假设我们使用一个模型来列举源文献中与特定问题相关的摘录。在列举每个摘录后,模型需要确定是否应该开始写另一个摘录或停止。如果源文献很大,模型通常会提前停止并未能列出所有相关摘录。在这种情况下,通过提示模型进行后续查询,以查找之前遗漏的任何摘录,通常可以获得更好的性能。
SYSTEM |
您将会得到一个由三引号包围的文档。您的任务是选择与以下问题相关的摘录:“人工智能的历史中发生了哪些重要的范式转变。”
确保摘录包含解释它们所需的所有相关上下文-换句话说,不要提取缺少重要上下文的小片段。按照以下格式以JSON格式提供输出: [{"excerpt": "..."}, |
USER | """<在此插入文档>""" |
ASSISTANT | [{"excerpt": "模型在此处编写一个摘录"}, ... {"excerpt": "模型在这里编写另一个摘录"}] |
USER | 是否还有更多相关的摘录?请注意不要重复抄录摘录。同样,请确保摘录包含解释它们所需的所有相关上下文-换句话说,不要提取缺少重要上下文的小片段。 |
使用外部工具
通过将其他工具的输出提供给 GPT 来弥补其弱点。例如,文本检索系统可以告诉GPTs相关文档的信息。代码执行引擎可以帮助 GPT 进行数学计算和运行代码。如果一个任务可以通过工具而不是GPT更可靠或更有效地完成,那么将其卸载以获得最佳效果。
1. 使用基于嵌入的搜索实现高效知识检索
如果外部信息作为模型的输入的一部分提供,模型可以利用外部信息。这可以帮助模型生成更具见解和最新的响应。例如,如果用户询问特定电影的问题,将高质量的电影信息(例如演员,导演等)添加到模型的输入中可能会很有用。可以使用嵌入来实现高效的知识检索,以便可以在运行时动态地向模型输入添加相关信息。
文本嵌入是一种可以衡量文本字符串相关性的向量。相似或相关的字符串将比不相关的字符串更接近。这个事实,以及快速向量搜索算法的存在,意味着可以使用嵌入来实现高效的知识检索。特别地,文本语料库可以被分成块,每个块可以被嵌入和存储。然后可以嵌入给定的查询,并进行向量搜索,以找到与查询最相关的文本块(即在嵌入空间中最接近的文本块)。
在OpenAI食谱中可以找到示例实现。请参见战术“指示模型使用检索到的知识来回答查询”的示例,以了解如何使用知识检索来最小化模型编造错误事实的可能性。
2. 使用代码执行进行更精确的计算或调用外部API
GPT 不能单独依靠执行算术或长时间计算来进行准确的计算。在这种情况下,可以指示模型编写和运行代码,而不是进行自己的计算。特别是,可以指示模型将要运行的代码放入指定格式(例如三个反引号)。生成输出后,可以提取并运行代码。最后,如果必要,可以将代码执行引擎(即Python解释器)的输出作为下一个查询的输入提供给模型。
SYSTEM |
您可以通过将Python代码放入三个反引号中(例如```代码在这里```)来编写和执行Python代码。使用此功能进行计算。 |
USER |
找出以下多项式的所有实根:3*x**5 - 5*x**4 - 3*x**3 - 7*x - 10。 |
代码执行的另一个好用例是调用外部API。如果一个模型能正确使用API,它可以编写利用API的代码。可以通过提供文档和/或代码示例来指导模型如何使用API。
SYSTEM |
您可以用三个反引号将Python代码括起来并执行。另外请注意,您可以访问以下模块来帮助用户向他们的朋友发送消息:
|
警告:执行由模型生成的代码本质上不安全,任何试图执行此操作的应用程序都应该采取预防措施。特别是需要一个沙盒式的代码执行环境,以限制不受信任的代码可能造成的危害。
3. 为模型提供特定函数的访问权限
Chat Completions API允许在请求中传递一系列函数描述。这使得模型可以根据提供的模式生成函数参数。API以JSON格式返回生成的函数参数,并可用于执行函数调用。函数调用提供的输出可以在以下请求中反馈到模型中,以关闭循环。这是使用GPT模型调用外部函数的推荐方式。要了解更多信息,请参见我们介绍GPT指南中的函数调用部分以及OpenAI Cookbook中的更多函数调用示例。
系统化地测试更改
如果能够度量性能,那么改善性能就会更容易。在某些情况下,对提示的修改会在一些孤立的例子上实现更好的性能,但会导致更具代表性的一组例子上的整体性能变差。因此,为了确保变更对性能的净影响是正面的,可能需要定义一个全面的测试套件(也称为“评估”)。
有时候很难确定一个更改——例如新指令或新设计——是否会让你的系统变得更好或更糟。看几个例子可能会暗示哪一个更好,但是样本量很小的情况下很难区分真正的改进还是偶然的运气。也许更改可以提高某些输入的性能,但会降低其他输入的性能。
评估程序对于优化系统设计非常有用。好的评估应该是:
- 代表真实世界的使用(或至少多样化)
- 包含许多测试用例以提高统计能力(有关指南,请参见下表)
- 易于自动化或重复。
| 要检测到的差异 | 需要样本量(95%置信度) |
|---|---|
| 30% | 约为10个样本 |
| 10% | 约为100个样本 |
| 3% | 约为1,000个样本 |
| 1% | 约为10,000个样本 |
输出的评估可以由计算机、人类或二者混合来完成。计算机可以使用客观标准(例如,具有单一正确答案的问题)自动化评估,也可以使用一些主观或模糊的标准,其中模型输出通过其他模型查询进行评估。OpenAI Evals是一个开源的软件框架,提供了创建自动化评估的工具。
当存在一系列可能被认为是同样高质量的输出时(例如,针对长答案问题),基于模型的评估可以很有用。基于模型的评估可以实现的实际范围与需要人类评估的范围之间的边界是模糊的,并且随着模型变得更加强大,这种边界不断变化。我们鼓励进行实验,以确定基于模型的评估对于您的用例可以起到多大的作用。
通过参考黄金标准答案来评估模型输出
假设已知一个问题的正确答案应该参考一个特定的已知事实集合,那么我们可以使用一个模型查询来计算答案中包含了多少必要的事实。
例如,使用以下系统消息:
SYSTEM |
您将获得由三重引号分隔的文本,这些文本应该是回答问题的答案。检查以下信息是否直接包含在答案中:
对于这些要点,请执行以下步骤: 1- 重新阐述要点。 最后,提供有多少个“是”答案的计数。将此计数提供为 {"count": <插入计数>}。 |
以下是一个示例输入,其中两个要点都得到满足:
SYSTEM |
<在上面插入系统消息> |
USER |
"""尼尔·阿姆斯特朗因成为第一位登上月球的人而闻名。这一历史性事件发生在1969年7月21日,阿姆斯特朗是阿波罗11号任务的一员。""" |
以下是只满足一个点的输入示例:
SYSTEM |
<插入系统消息> |
USER |
"""尼尔·阿姆斯特朗从登月舱走出来,成为第一个在月球上行走的人,创造了历史。""" |
以下是一个没有得到满足的输入的示例:
SYSTEM |
<在上面插入系统消息> |
USER |
"""在69年的夏天,一次宏伟的旅程, 阿波罗11号,像传说一样勇敢。 阿姆斯特朗迈出了一步,历史展开了, 他说:“一个小小的步伐”,为了一个新世界。""" |
有许多可能的基于模型的评估变体。考虑以下变体,它跟踪候选答案与标准答案之间的重叠类型,并跟踪候选答案是否与标准答案的任何部分相矛盾。
SYSTEM |
使用以下步骤来回复用户输入。在进行下一步之前,完整地重述每个步骤。例如,“第一步:逐步推理......”。
第一步:逐步推理提交的答案与专家答案之间的信息是否:不相交、相等、子集、超集或重叠(即存在一些交集但不是子集或超集)。 第二步:逐步推理提交的答案是否与专家答案的任何方面相矛盾。 第三步:输出一个结构化的JSON对象,格式如下:{"type_of_overlap": "disjoint"或"equal"或"subset"或"superset"或"overlapping", "contradiction": true或false}。 |
以下是一个示例输入,其中包含一个不太好的答案,但它并没有与专家答案相矛盾:
SYSTEM |
<插入系统消息> |
USER |
问题: “尼尔·阿姆斯特朗最出名的事件是什么,它发生在哪个日期?假设使用UTC时间。” 提交的答案: “他不是在月球上行走或类似的事情吗?” 专家答案: “尼尔·阿姆斯特朗最出名的是成为第一个在月球上行走的人。这次历史性事件发生在1969年7月21日。” |
以下是一个输入示例,答案直接与专家答案相矛盾:
SYSTEM |
<插入上面的系统信息> |
USER |
问题:“尼尔·阿姆斯特朗最著名的事件是什么,它发生在什么日期?假设使用协调世界时。” 提交的答案:“1969年7月21日,尼尔·阿姆斯特朗成为第二个登上月球的人,紧随布兹·奥尔德林之后。” 专家答案:“尼尔·阿姆斯特朗最著名的事件是成为第一个登上月球的人。这一历史事件发生在1969年7月21日。” |
以下是一个示例输入,包含一个正确答案和比所需的更多细节:
SYSTEM |
<插入系统信息> |
USER |
问题:“尼尔·阿姆斯特朗最著名的事件是什么,它发生在哪个日期?假设使用协调世界时。” 提交的答案:“大约在1969年7月21日02:56 UTC,尼尔·阿姆斯特朗成为第一个踏上月球表面的人类,标志着人类历史上的一项重大成就。” 专家答案:“尼尔·阿姆斯特朗最著名的是成为第一个在月球上行走的人。这一历史性事件发生于1969年7月21日。” |