最权威/高效的AI使用方法:OpenAI官方提示工程

199 阅读6分钟

今年,在OpenAI推出ChatGPT后不久,网络上鱼龙混杂涌现了大量AI提问的方法。那么最权威的提问方法是什么呢?

非OpenAI官方发布的《GPT 最佳实践》指南莫属。

该指南被视为高质量的官方资源。对于想要迅速提升AI提问效果的人来说,《GPT最佳实践 - 提升Prompt效果的六个策略》会非常有帮助。接下来重点给大家举例讲讲这六个策略。

策略一:写出清晰的指令

AI模型无法读懂你的心思,模型越少猜测你想要什么,你就越有可能得到它。

以下是其中一个例子:

糟糕的提问优秀的提问
谁是总统?谁是 2021 年的墨西哥总统,选举多久举行一次?
总结会议记录。用一个段落总结会议记录。然后写一个演讲者和他们每个关键点的降价列表。最后,列出演讲者建议的后续步骤或行动项目(如果有的话)。
如何在Excel中添加数字?如何在Excel中将一行美元金额相加?我想自动为整张行表执行此操作,所有总数都位于名为“Total”的列的右侧。

具体方法包括:

  • 在您的查询中包含详细信息以获得更相关的答案

  • 要求模型采用角色

  • 使用定界符清楚地指示输入的不同部分

  • 指定完成任务所需的步骤

  • 提供例子

  • 指定所需的输出长度

策略二:从参考文本中找信息

AI模型可以自信地胡说八道,尤其是在被问及深奥的主题或引文和 URL 时。如果我们可以为模型提供与当前查询相关的可靠信息,那么我们就可以要求模型使用提供的信息来进行回答。

以下是其中一个例子:

""" 在2022年的某天,李明骑着摩托车前往客户那里交付货物。途中,他意外地遇到了一只可爱的小狗,于是他停下车,弯下腰去和小狗亲近。然而,当他回到摩托车时,惊讶地发现货物不见了。经过一年的时间,也就是在2023年,李明再次进了一批货物,但他万万没想到,在货物中居然发现了那只之前遇到的小狗。这个奇怪的巧合让他感到非常吃惊。"""

问题:2022年李明开摩托车遇到了什么动物?

图片

具体方法包括:

  • 提示模型使用参考文本来回答问题

  • 提示模型使用参考文本中的引用来回答问题

策略三:给AI时间思考

为了避免GPT推理错误,在回答问题之前,可要求模型给出一系列的推理过程可以帮助GPT更可靠地推理正确的答案。

以下是其中一个例子:

图片

开始GPT的回答是:学生的答案是正确的。但是学生的解决方案实际上是不正确的!

我们可以让GPT给出推理过程,加上一段提示词:

“首先,针对这个问题,请先思考并找出你自己的解决方案,列出计算过程。

将你的解决方案的函数与学生的解决方案的函数分别列出来,再将函数进行比较,评估学生的解决方案是否正确。

请在你自己完成问题的解决方案之后,再判断学生的解决方案是否正确。”

640.png

当给出推理过程后,GPT给出正确的判断“学生的答案是错误的”。

具体方法包括:

  • 在匆忙下结论之前指示模型制定出自己的解决方案

  • 使用内心独白或一系列查询来隐藏模型的推理过程

  • 询问模型是否遗漏了之前传递的任何内容

策略四:复杂任务拆为简单的子任务

复杂任务往往比简单任务具有更高的错误率。此外,复杂任务通常可以重新定义为更简单任务的工作流,其中早期任务的输出用于构建后续任务的输入。

具体方法包括:

  • 使用意图分类来识别与用户查询最相关的指令

  • 对于需要很长对话的对话应用,总结或过滤之前的对话

  • 分段总结长文档并递归构建完整摘要

策略五:使用外部工具

为了弥补GPT的不足,我们可以使用其他工具的输出来增强其功能。一个方法是通过文本检索系统提供相关文档的信息,以辅助GPT生成更准确的回答。另外,可以利用代码执行引擎来帮助GPT进行数学计算和代码运行,从而提高其处理相关任务的效率和可靠性。在需要获得最佳效果时,我们应当借助其他工具来增强GPT的能力。

策略六:系统地测试变更

当我们对GPT进行修改时,有时候我们会发现在一些特定的例子上改动提示可以明显提高结果。比如,在某个特定的问题上,将提示稍微修改一下可能会得到更准确的答案。

然而,这种修改可能只是针对一些特殊情况有效,而在更广泛、更代表性的情况下可能导致整体表现变差。就好像我们只关注某个小范围的数据,而忽视了更大范围的数据。

为了确保我们的修改能够在多个情况下产生积极的影响,我们需要进行全面的测试。这意味着要使用包含各种不同类型问题的测试集,来评估模型在不同任务和数据集上的表现。通过这种综合的评估,我们可以更全面地了解模型的性能,并根据测试结果进行相应的改进。

举个例子,假设我们正在训练一个问答模型,我们发现在某个具体的问题上,稍微修改提示可以得到更好的答案。但如果我们仅仅基于这个问题的改进来评估模型,就可能忽略了其他问题的性能变化。通过使用评估套件来测试模型在多个问题上的表现,我们可以更准确地判断我们的修改是否真正提高了模型的整体效果。

官方原文网址:

https://platform.openai.com/docs/guides/gpt-best-practices