ChatGPT 达人迷(上)

16 阅读1小时+

原文:ChatGPT For Dummies

译者:飞龙

协议:CC BY-NC-SA 4.0

介绍

很容易将 ChatGPT 视为一次性现象或炙手可热的新趋势,因为它突然而轰动地出现在公众视野中。但这项技术是巨大和永久变革的前兆。无论最终成功与否,ChatGPT 正在改变我们工作、玩耍、生活和与周围世界互动的方式。它也为人工智能的进步铺平了道路,使其成为人类体验中的永久组成部分和影响者。

ChatGPT 正在快速发展,使任何人都难以理解和跟上其快速进展。本书旨在帮助您了解其工作原理以及如何使用它。是的,ChatGPT 在本书出版后将继续发展,但您仍将具备对这项技术的工作知识,您可以在继续学习的同时建立在此基础上。此外,您将拥有能够帮助您适应和使用其他人工智能模型的技能,其中一些不可避免地会随着时间的推移变得更加先进。

如果你对人工智能总体或特别是 ChatGPT 感到不安,那么知道你的直觉反应是普遍的,而且并非毫无根据。这项技术肯定会改变工作的性质以及你的工作方式。但也要知道,人工智能不会夺走大多数人的工作。擅长使用人工智能的人会。成为那个人吧!

你可以学会这个。这并不像你想象的那么难!

关于本书

尽管你可以在 YouTube、博客、文章、社交媒体等地方找到大量关于 ChatGPT 的内容,但这本书是关于这个话题的第一本,如果不是第一本,尤其是在初学者或入门级别。毫无疑问。除了一小部分人工智能科学家外,当涉及到 ChatGPT 时,每个人都是初学者。放心,你正在与全球数百万其他人一起学习。

如果你已经在尝试或使用 ChatGPT,你会在本书中找到几种方法,利用你已经掌握的知识以及新的内容,以便在努力中获得更多 ChatGPT 的价值。

请注意,关于 ChatGPT 的讨论包括解释和提及支撑 ChatGPT 的 GPT 模型,但这些模型也被用作除了这个聊天机器人之外的应用的人工智能模型。

对于类似 ChatGPT 的模型的引用可能意味着它们在技术上与 ChatGPT 相似,也可能不相似。例如,竞争模型可能或可能不以大型语言模型(LLMs)为基础,就像 ChatGPT 一样,但它们仍然被称为“相似”,因为它们的用户界面和功能与 ChatGPT 非常相似。通过这种方式,你可以更容易地比较和理解市场上各种生成式人工智能聊天机器人,而不必深陷技术细节。

一些网址会跨越两行文字。如果你正在阅读这本书的印刷版并想访问其中一个网页,只需按照文本中的方式输入地址,假装不存在换行。如果你正在阅读电子书,那就更简单了;只需点击网址即可直接访问网页。

愚蠢的假设

本书适用于任何希望了解并在工作和日常生活中使用 ChatGPT 的人,以及为 ChatGPT 将引入的不可避免的变化做准备的人。

为了实际操作的目的,我对本书的受众做出了一些假设。例如,我假设你对 ChatGPT 没有理解或只有有限的理解。我还假设你至少具有基本的与计算设备、浏览器和 Web 应用程序一起工作的舒适和技能水平。最后,我还假设,就像每一本 Dummies 书籍一样,你是聪明的,时间紧迫,因此希望在快速简便的阅读中得到所有实质内容而没有废话。我希望我已经达到了你的期望。

本书中使用的图标

有时你会在本书的页边看到一些符号。它们的目的是指引你找到沿途重要的信息。以下是这些符号的含义:

这个图标突出显示了成功理解或使用 ChatGPT 中特别重要的信息。

这个图标警告你可能直到为时已晚才会意识到的绊脚石或危险。请仔细注意警告。

超越本书

除了你现在正在阅读的印刷版或电子书中的内容外,这个产品还附带一个随时访问的速查表。要查看速查表,请访问www.dummies.com,在搜索框中输入 ChatGPT For Dummies 速查表。你将找到有用的用户提示,关于在各种形式中访问 ChatGPT 的信息,有关写作提示的指针,以及关于如何使其按照你需要的方式精确地输出所需结果的一些建议。

下一步该去哪里

这是一本参考书,所以除非你想更详细地了解 ChatGPT,否则不必从头到尾阅读。也可以随意按任何顺序阅读章节。每一章都是独立设计的,这意味着你不必了解之前章节的内容就能理解你正在阅读的章节。随时开始,直到你觉得已经获得了完成手头任务所需的所有信息为止。

然而,如果你的目标是快速上手并使用 ChatGPT,你应该阅读第三章,该章节是关于写作提示的,以指导你完成整个过程。务必还要阅读第五章,在那里你将被警告在开始使用 ChatGPT 之前绝对需要了解的几个问题。

第二章向你展示了 ChatGPT 的工作原理,这让你在输入提示后更深入地了解它的运作。而且,如果你担心人工智能会取代你的工作或者它会如何影响你的私人生活,在第六章和第八章中对大多数人来说有好消息。

随时打开 ChatGPT,并随着学习本书中的每一项新知识进行实验。许多人发现这样跟着学习很容易。但无论你选择如何学习和实验 ChatGPT,你很可能会很快掌握。这就是这类人工智能的美妙之处——非常易于使用。最困难的部分是拓展自己的想象力,让自己在每个新项目中走得更远。

第一章

介绍 ChatGPT

在本章中

尝试 ChatGPT

比较 ChatGPT 和搜索引擎

理解 ChatGPT

选择 ChatGPT 和 ChatGPT Plus 之间

理解 ChatGPT 是深刻变革的先兆

克服 ChatGPT 引发的恐惧

ChatGPT 是一个巨大的现象,是技术进步加速前进的重大范式转变。它是一个大型语言模型(LLM),属于一类称为生成式 AI 的人工智能,可以生成新内容而不仅仅是分析现有数据。此外,任何人都可以用自己的话语与 ChatGPT 互动。自然、类似人类的对话随之而来。

在本章中,您将了解如何访问 ChatGPT,为什么应该使用它,使用它的利弊,以及常见的担忧是否合理或完全不切实际。

用户通常直接在https://chat.openai.com/上访问 ChatGPT,但它也正在与几个现有应用程序集成,如微软 Office 应用程序(Word、Excel 和 PowerPoint)和必应搜索引擎。随着现有软件提供商急于利用 ChatGPT 的流行度,应用集成的数量似乎每天都在增加。

设置账户

设置账户并输入第一个提示的一种方法是简单地执行以下操作:

  1. 前往https://openai.com/blog/chatgpt

  2. 返回用户可以直接转到https://chat.openai.com/,跳过其余步骤。

  3. 点击“尝试 ChatGPT”按钮,如图 1-1 所示。

    图 1-1: 点击这里查看 ChatGPT。

  4. 按照提示创建您的 OpenAI 账户。

  5. 注册 OpenAI 账户后,您可以选择免费的 ChatGPT 账户,或者选择每月$20 的高级 ChatGPT Plus 订阅。拥有 OpenAI 账户还可以访问其他 OpenAI 模型,如 DALL-E 和 DALL-E 2。

  6. 当 ChatGPT 打开时,在提示栏中输入您的提示(问题或命令)。

  7. ChatGPT 生成一个响应。

  8. 如果您想继续对话,请输入另一个提示。

  9. 完成后,通过点击赞或踩图标对响应进行评分。

  10. 这有助于微调 AI 模型。

  11. 注销或简单地关闭浏览器窗口。

OpenAI 团队可以看到您在提示中输入的任何信息以及随后的整个对话。这些数据可能用于训练其他 AI 模型。请参阅图 1-2 中的披露。在使用 ChatGPT 时,请不要透露任何您想保密或保密的内容。

图 1-2: OpenAI 网站上的 ChatGPT 数据收集披露。

比较 ChatGPT、搜索引擎和分析工具

ChatGPT 只是一个例子,尽管是最为公众熟知的,代表了生成式 AI 模型的巨大飞跃。

以前,具有更有限 AI 功能的排名系统会对它们在庞大数据集中发现的信息进行排序和排名。您会认识到这些排名系统的例子:谷歌和必应等搜索引擎,用于在零售结账柜台打印优惠券的推荐引擎,提供“附近”目的地选项的谷歌地图等 GPS 系统,以及 Netflix 和其他流媒体服务提供的个性化电影推荐。

排名系统通过对大量信息进行优先排序而塑造我们的思维和功能。例如,谷歌搜索引擎会对用户输入的关键词进行排名并返回结果。一般来说,用户不会查看超过前三到五个排名靠前的结果。这实际上通过限制我们摄入和考虑的信息来塑造我们的思维。公司渴望在某些关键词结果中获得排名靠前的位置,这就是为什么围绕关键词出现了一个庞大的搜索引擎优化(SEO)行业。

ChatGPT 提供统一答案的能力预计将对我们的思维和行为产生比排名系统更大程度的影响。例如,对这种单一答案选项的普遍公众看法是,ChatGPT 比任何其他来源更聪明、更少偏见,更真实。这种看法是错误的。

ChatGPT 生成新内容的能力与我们更熟悉的以前的软件程序截然不同,例如其他 AI 形式、搜索引擎、聊天机器人、高级分析甚至商业智能(BI)软件。ChatGPT 的准确性可能比更具分析性质的软件波动更大。尽管我曾看到商业智能应用程序的糟糕输出,但我从未见过一个直接撒谎或产生幻觉(令人信服但完全错误的生成回应)。但 ChatGPT 偶尔会展示它可以做到这两者。

ChatGPT 与其他 AI 软件类别不同,因为它采用对话格式。先前的聊天机器人通过从预先准备的回复中选择来回应自然语言查询,这意味着内容是预先编写的,并且通过关键词或用户问题的内容触发回复选择。ChatGPT 会对用户的提示生成自己的回复。对于不熟悉的人来说,这两种类型的聊天机器人可能看起来相同,但实际上并不相同。

与 ChatGPT 的互动始于某人用他们的自然语言输入提示,而不是机器语言。这意味着您可以给机器发送命令或提问而不使用计算机代码。ChatGPT 会用您使用的相同语言进行回应。随着您与其的互动进行,它会继续建立对话。这种分线互动呈现为实时对话,营造出对话或对您请求的高度智能回应的外观。

然而,在单次对话中您可以获得的 ChatGPT 回应数量可能需要受限制,以防止这种人工智能模型提供奇怪的回应、出错或变得冒犯。为了防止这种行为,微软在 Bing 中限制了每个用户对话的 ChatGPT 回应次数为五次。您可以自由开始另一次对话,但当前交流不能超过上限。

ChatGPT 生成而不是复述内容,这意味着它可能会做出错误的假设、撒谎和产生幻觉。ChatGPT 或任何其他生成式人工智能模型都不是一个绝对的真相来源、一个可信的叙述者或任何主题的权威,即使您要求它表现得像一个。在某些情况下,将其接受为神谕或真理的唯一来源是一个严重的错误。

理解 ChatGPT 是什么以及不是什么

能够产生与人类交流相近的内容的能力主要导致了常被称为毛骨悚然的那种刺痛感。ChatGPT 听起来和行动几乎太像人类了。

用户与 ChatGPT 之间的互动感觉与先前使用其他软件的体验不同。首先,使用早期自然语言处理的软件通常局限于短暂的交流和预定的回应。ChatGPT 可以生成自己的内容并持续对话更长时间。

ChatGPT,像所有机器学习(ML)和深度学习(DL)模型一样,“学习”是通过暴露于庞大训练数据集中的模式,然后用这些模式识别这些和其他数据集中类似的模式。ChatGPT 不像人类那样思考或学习。相反,它根据其模式识别能力理解和行动。

截至目前,ChatGPT 支持 95 种语言。它还了解几种编程语言,如 Python 和 JavaScript。生成式人工智能也不同于编程软件,因为它可以考虑自然语言提示中的上下文和内容。

ChatGPT 的名称中的“Chat”是指其使用自然语言处理和自然语言生成。GPT 代表生成式预训练变换器,这是由 OpenAI 开发的深度学习神经网络模型,OpenAI 是一家美国人工智能研究和开发公司。您可以将 GPT 视为使 ChatGPT 像它所做的那样工作的秘密武器。

ChatGPT 不像人类那样思考。它根据学习到的模式进行预测,并根据其知情猜测和对首选或可接受词序的预测做出回应。这就是为什么它生成的内容可能非常出色或非常错误。当 ChatGPT 正确时,其魔力来自于其预测的准确性。有时 ChatGPT 的数字水晶球是正确的,有时不是。有时它传递真相,有时它喷出更糟糕的东西。

解开 ChatGPT 的恐惧

或许没有其他技术像生成式人工智能一样引人入胜和令人不安。当 ChatGPT 推出后的两个月内,有 1 亿月活跃用户下载了免费的研究预览版本,情绪达到了高潮。你可以感谢科幻作家和你自己的想象力,因为 ChatGPT 现在激活了你脑中引人入胜和令人恐惧的触发器。

但这并不意味着没有合理的谨慎和担忧的理由。针对生成式人工智能程序侵犯版权和其他知识产权的诉讼已经发起。OpenAI 和其他人工智能公司及合作伙伴被指控未经许可或支付非法使用受版权保护的照片、文本和其他知识产权来训练他们的人工智能模型。这些指控通常源于版权内容被卷入互联网抓取以创建大规模训练数据集。

一般来说,法律辩护团队正在就在人工智能时代这类指控的不可避免性和不可持续性进行辩论,并要求撤销指控。关于谁拥有 ChatGPT 及其同类生成的内容的诉讼潜伏在未来的某个地方。然而,美国版权局已经裁定,由人工智能生成的内容,无论是文字、图像还是音乐,都不受版权法保护。至少目前,在美国,政府不会保护由人工智能生成的任何内容的权利、许可或支付。

与此同时,对其他类型潜在责任的现实担忧存在。ChatGPT 及其同类有时会向用户和其他机器提供错误信息。当事情出错时,特别是在威胁生命的情况下,谁应该承担责任?即使一个企业的底线受到威胁,而不是某人的生命,风险仍然很高,结果可能是灾难性的。不可避免地,某人将遭受损失,很可能某个人或组织最终将为此负责。

早期关注点的放大包括数据隐私、偏见、人工智能行为对个人和群体的不公平对待、身份盗窃、深度伪造、安全问题以及现实冷漠,即公众无法分辨真实与虚假,认为整理这一切的努力太难以追求。

简而言之,ChatGPT 加速并加剧了当前由寻求建立旨在确保负责任人工智能的防护栏的组织和政府正在研究、追求和制定的规则和标准的需求。重要问题是,鉴于 ChatGPT 在全球范围内的快速采用率,它们是否能及时成功。

制定指导方针、伦理准则、标准和负责任的人工智能框架的组织和政府包括以下:

  • ACM 美国技术委员会人工智能与算法小组委员会

  • 世界经济论坛

  • 英国数据伦理中心

  • 政府机构和努力,如美国人工智能权利法案和欧洲联盟欧洲理事会的人工智能法案。

  • IEEE 及其 7000 系列标准

  • 诸如纽约大学斯特恩商学院等大学

  • 私营部门,在这里公司制定自己的负责任的人工智能政策和基金会

至于公众舆论,似乎有两种思路在起作用。第一种是支持 ChatGPT 的全面民主化,这基本上就是现在正在发生的,因为 OpenAI 让用户通过任意使用来参与训练模型。第二种是呼吁对 ChatGPT 和其他生成式人工智能的使用进行监管,以遏制犯罪、诈骗、网络攻击、欺凌和其他利用这些工具实施或扩大的恶意行为。

ChatGPT 是一个非常有用的工具,充满了许多承诺和潜力,可以为个人、社会、政府和组织做很多好事。事实上,我认为这是人类增强的第一步。虽然 ChatGPT 没有整合到人体中,但它可以用来增强人类的思维、理解、工作和创造力。

与 ChatGPT 竞争你的工作

目前,人们对 ChatGPT 感到恐惧的很大程度上是由于未知因素更加接近家庭。ChatGPT 会拿走我的工作吗?传播虚假信息或宣传,导致我的政党失败或导致我的社区犯罪或抗议活动激增?它会结束我的隐私和尊严吗?最终,我能否抵抗比我更聪明的机器对我和我的职业的威胁?

我们有这些恐惧是因为 ChatGPT 似乎太过熟悉:我们已经遇见了生成式人工智能,而它就是我们自己。

它如此类似人类行为,因为 ChatGPT 的教育在很大程度上来自互联网,人类众所周知地在那里散布最卑劣的思想、谎言、阴谋论、宣传、犯罪活动和各种形式的仇恨。当然,也有一些真实和有用的信息。

最好的情况下,互联网是一个充满人类垃圾的混合袋,而人工智能模型已经展现出对垃圾的偏好。你可能还记得微软在 2016 年试图在社交媒体上训练的 AI 聊天机器人 Tay。它很快在 Twitter 上失控,发布充满争议和种族主义言论的推文,充满了粗言秽语。它试图像人类一样社交的争议性和冒犯性行为导致微软在其亮相仅仅 16 小时后将其销毁。

在那之后和类似的人工智能培训结果,因为我们知道我们人类是一群可怕的人,普遍的假设是人工智能行为和声音像我们,所以它一定同样令人恐惧,甚至可能更可怕。

实际上,关于人类的一切错误或不好的东西往往会转移到人工智能上。但同样适用于一切正确和好的东西,以及一些既有点好又有点坏的东西。

ChatGPT 可以帮助诊断疾病并寻找治疗方法。它可以帮助学生以高度个性化的方式学习,使他们的教育更加高效和少受挫折。它可以帮助非营利组织找到筹集资金、削减成本和推动事业的新途径。潜在的 ChatGPT 贡献的好处和有帮助的例子几乎是无穷无尽的。

尽管如此,人们普遍担心无情的机器霸主可能的到来。幸运的是,它们不会来。这种恐惧召唤的 AI 类型是通用 AI 或人工通用智能(AGI),在科学界被称为这样。它在科幻小说和人类噩梦之外不存在。它可能有一天会出现,但现在还没有。

当然,ChatGPT 不是 AGI。它不会思考。它不聪明。它不是人类。它是一种通过在我们的言语、思维和行为中找到模式来模仿人类的软件。它根据这些模式计算概率。简而言之,它做出了知情的猜测。这些猜测可能是聪明的或明显错误的,真实而有洞察力的或狡猾的谎言。但这一切都不需要软件去思考。

出于这些原因以及更多原因,ChatGPT 可以影响或取代一些工作,就像分析和自动化可以做的那样。但它无法完全取代所有工人,因为它无法做到人类可以做的所有事情。你仍然比 ChatGPT 具有竞争优势。

你可能会问,你的竞争优势是什么?有很多事情:创造力和直觉智能;找到并分析数字形式不存在的数据的能力;从词语和图像对话的上下文和细微差别中获得意义的天生能力;以及在以前不存在的地方建立神经元连接的能力。连接点或跳出固有思维模式的能力将人类与机器区分开来。

人类在写作提示中的创造力使 ChatGPT 产生独特和复杂的输出,而不是死记硬背的通用内容。一个聪明而有创造力的人让 ChatGPT 发挥出最佳表现。

人类还独特地拥有情商和同理心,这两种强大的能力影响着人们并塑造着事件和结果。等等。

你的大脑也非常节能。每天三餐和几个小吃可以买到很多思考能力。另一方面,像 ChatGPT 这样的深度学习模型吸收了大量的计算能力。

威胁你工作的不是 ChatGPT,而是使用 ChatGPT 和其他 AI 工具的人。你需要学会如何使用这些工具来提高你的收入潜力和工作技能,并在使用 ChatGPT 和其他 AI 驱动的服务时保护自己。阅读这本书将让你有一个良好的开端。

重新定义 Chatbot 与 ChatGPT 和 ChatGPT Plus

AI 助手和 AI 辅助聊天机器人已经在市场上存在一段时间了。我记得 2019 年参加微软的数据和 AI 技术沉浸式研讨会,对我在 Azure 公共云上使用虚拟助手解决方案加速器构建机器人的轻松和快速感到惊叹。当然,专业人员在场帮助,但总体来说,这是一个相对容易的练习。谷歌也有一个充满 AI 和机器人制作的工具箱。其他供应商也有。各种工具和可能性的混合令人心动和振奋。

预构建、预训练、可定制的 AI 模型已经成为数据和 AI 民主化中不可或缺的元素。ChatGPT 将 AI 民主化推向了顶峰,并交到了公众手中。

真正的民主化意味着几乎任何人都能理解和使用这项技术。智能手机和 GPS 应用是完全民主化技术的例子。ChatGPT 正在迅速地像野火般在全球传播。今天,学生、艺术家、医疗专业人士、法律助手、随意尝试的普通人、作家以及来自各行各业和各种规模企业的专业人士都在使用 ChatGPT。明天和以后的每一天都会有更多人使用它。这不是一个趋势;这是一个地震般的范式转变。

人们对 ChatGPT 有这么多直觉上的了解。但 ChatGPT 如何重新定义聊天机器人可能不那么明显。毕竟,聊天机器人和数字助手如 Alexa、Siri、Google 助手和 Cortana 已经使用自然语言处理与人们聊天一段时间了。

以前的 AI 聊天机器人存在一些限制,包括缺乏对上下文的理解、没有决策能力、所谓的对话局限于预设响应,以及由于内存问题只能进行短对话交流。

相比之下,ChatGPT 能理解上下文,能做出决策,并能处理长对话线程以以人类方式继续更长的对话。此外,ChatGPT 的回应会随着每个提示和提示变化而改变。它不使用预设响应,这意味着它不会提供一组由特定关键词触发的有限数量的预定响应。

在很大程度上,ChatGPT 比以前的聊天机器人具有明显优势。但有时这些特点也可能成为劣势。

例如,微软将 ChatGPT 集成到必应中,每个用户每次会话最多只能提出 5 个问题,每天最多 50 个问题,之后搜索引擎开始肆无忌惮地侮辱、撒谎和情绪操纵用户。这种行为证明了许多人很早就学到的一点:说得越多,往往越麻烦。微软声称“在五分钟后清除对话可以防止模型混淆”。

谷歌的 Bard,作为 ChatGPT 的 AI 竞争对手,表现也不尽人意。在一段演示视频中提供错误答案后,Bard 让公司损失了 1000 亿美元,这动摇了股市对该机器人能力的信心。

许多人认为,像 ChatGPT 和 Bard 这样的生成式 AI 最终会取代必应和谷歌等搜索引擎。我认为这种结果不太可能发生,不仅因为生成式 AI 的缺陷,还因为搜索引擎仍然有许多好的用途。说 ChatGPT 会取代谷歌就像说电视会杀死广播或计算机会杀死纸质文件一样。世界不倾向于一边倒。

然而,可以肯定的是,ChatGPT 及其竞争对手正在以多种方式重新定义聊天机器人,其中并非所有方式都是好的。无论如何,生成式 AI 机器人几乎无处不在,随之而来的是一连串公司的道歉,这是不可避免的失误之后。

比较两个版本

目前,OpenAI 提供 ChatGPT 的免费研究预览版本和名为 ChatGPT Plus(每月每用户$20)的高级版本。OpenAI 表示打算保持免费版本可用,或许作为吸引用户升级到高级版本的免费版。

高级版本提供新功能和升级的早期访问权限,以及在高峰使用时段的优先访问和更快的响应时间。否则,这两个版本相似。

体验其众多用途

使用 ChatGPT 的方式就像其用户一样多样化。大多数人倾向于更基础的请求,比如创作诗歌、文章或短篇营销内容。学生们经常使用它来完成作业。注意,孩子们:ChatGPT 在回答谜语和有时数学中的问题时表现不佳。有时候,它只是凭空捏造。

一般来说,人们倾向于使用 ChatGPT 来指导或解释某事,就好像这个机器人是一个更高级版本的搜索引擎。这种用法没有错,但 ChatGPT 可以做得更多。

要看它能做多少,取决于你写提示的好坏。如果你写一个基础提示,你会得到一个极简单的答案,你本可以在谷歌或必应等搜索引擎中找到。这是人们在使用几次后放弃 ChatGPT 的最常见原因。他们错误地认为它没有新的东西可提供。但这种失败是用户的错,而不是 ChatGPT 的错。

你可以在第三章中了解写提示的复杂性。现在,看看以下列出的一些这项技术更独特用途的列表。用户曾要求 ChatGPT

  • 与一位长逝的传奇人物就当代话题发表意见进行采访。

  • 为标志、时尚设计和室内装饰设计推荐颜色和颜色组合。

  • 创作原创作品,如文章、电子书和广告文案。

  • 预测商业场景的结果。

  • 基于股市历史和当前经济状况制定投资策略。

  • 根据患者的真实测试结果进行诊断。

  • 编写计算机代码,从零开始制作新的电脑游戏。

  • 利用销售线索。

  • 激发各种事物的想法,从 A/B 测试到播客、网络研讨会和完整的电影。

  • 检查计算机代码中的错误。

  • 将法律文件、合同和其他形式的术语总结为简单易懂的语言。

  • 将协议条款计算为总成本。

  • 教授一项技能或获取复杂任务的说明。

  • 在实施决策之前找到逻辑错误。

  • 撰写个人简介和简历。

  • 制定营销策略。

  • 制作一部电影。

  • 制定一项战略。

  • 管理客户服务。

  • 制定公司政策。

  • 撰写教案。

  • 撰写一份商业计划。

  • 撰写一篇演讲。

  • 策划一个派对。

  • 提出娱乐建议。

  • 在成千上万的临床研究中寻找潜在的治疗方法和疗法。

  • 制定政治竞选策略。

ChatGPT 的优缺点

像所有技术一样,ChatGPT 既有优点也有缺点需要考虑。然而,与许多其他技术不同,ChatGPT 是独特的。由于其性质和新颖性,它也有一些小问题。如果你利用好它的优点并计划如何弥补缺点,你的项目就会一切顺利!

|

优点

|

缺点

|

|

快速响应

|

有时不准确

|

|

提供统一答案

|

质量不一

|

|

对话式的

|

有时会冒犯

|

|

广泛的能力范围

|

即使错误也能说服他人

|

|

许多应用

|

对话不是私密的

|

|

生成创意内容

|

目前尚未受到美国版权法的保护

|

ChatGPT 的创造力备受关注。但这种创造力是人类提示的反映和结果。如果你能想到,你可能会让 ChatGPT 配合。

不幸的是,这也适用于坏人。例如,他们可以提示 ChatGPT 查找计算机代码或计算机系统中的漏洞;通过以您的风格、语调和词汇选择编写文件来窃取您的身份;或编辑音频剪辑或视频剪辑来欺骗您的生物识别安全措施或让其说出您实际没有说的话。只有他们的想象力限制了对危害和混乱的可能性。

探索其他形式的 GPT

ChatGPT 是建立在 OpenAI 的 GPT-3 系列大型语言模型上的,经过人类和强化学习的微调,并经过训练以执行对话任务。现在它正在运行在 GPT-4 上。GPT-5 在未来,但目前尚未进行训练。

OpenAI 使用您输入的提示数据作为持续改进 ChatGPT 的一部分。这就是为什么您永远不应该认为您在 ChatGPT 的免费或高级版本中所做的工作是私密的。

GPT-3 和 GPT-4 是通用的人工智能模型,适用于各种与语言相关的任务。ChatGPT 是一个聊天机器人,可以在任一模型上运行,它比 GPT-3 和 GPT-4 在对话任务中更小、更准确和更快。然而,GPT-3 和 GPT-4 都能够执行比 ChatGPT 所做的与好奇的人进行对话更多的操作。

OpenAI 的旧 GPT-3 模型命名为达芬奇、居里、巴贝奇和艾达。达芬奇功能最强大,但在成本是主要考虑因素时,其他模型有时是开发人员满足特定需求的更好选择。

更近期的模型是 Codex,它能够理解并生成计算机代码,其训练来自自然语言和从 GitHub 抓取的数十亿行代码,以及内容过滤器,它将文本分类为安全、敏感或不安全。

内容过滤器模型旨在过滤掉用户可能认为具有冒犯性或令人担忧的内容。不幸的是,过滤器有时会失效,让一些不良内容通过,同时过度限制一些可接受或勉强可疑的内容。这种行为并不奇怪,因为内容过滤器处于测试阶段;预计随着时间的推移会有所改善。鼓励用户点击 ChatGPT 生成文本顶部的赞或踩按钮,以帮助改善内容生成的相关性、质量和可接受性。

GPT-4 于 2023 年初发布。它具有更多的推理能力,通常比 GPT-3 模型更具创造性和协作性。它也更大更稳定。其能力令人印象深刻,可以在技术写作、编程、编剧和模仿用户个人写作风格等输出中轻松看到。然而,它仍然像 GPT-3 模型一样产生幻觉。

开发人员可以在https://openai.com/api/找到 API 和集成信息。

抢眼的标题和扰乱业务

ChatGPT 让世界大吃一惊。从各方面来看,它的推出不应该引起如此大的轰动。

模型概念并不新颖。大型语言模型可以追溯到上世纪 50 年代。最近几年,几家组织同时开发了基于这种模型的几个聊天机器人,但几乎没有引起市场的关注或期待。而且,ChatGPT 至少在最初的形式中并不一定是同类产品中最好的。此外,以前的聊天机器人类型很常见且运作良好,几乎没有市场能量去做更具创新性的事情。

然而,ChatGPT 却在其无可争议的 AI 之巅的地位上。自其向公众介绍不到两个月以来,所有迹象都表明它被认为是如此。燃眉之急是为什么它会被如此迅速地被如此多人接受?

学者、研究人员和学者将不得不探讨这个问题,以找到明确的答案。但更加紧迫的问题是,一个拥有超过 1 亿全球用户立即接受并每天有超过 1300 万用户使用的技术会产生什么影响?

领悟 ChatGPT 是指数变化的先驱

贸易出版物通常会吹嘘新技术的到来,主流媒体只会做出敷衍的表示。但主流媒体的头条新闻迅速宣布了 ChatGPT 的到来,甚至脱口秀主持人和喜剧演员也对 ChatGPT 将如何改变我们的世界发表了看法。

有人说 ChatGPT 的到来预示着许多工作和职业的终结。还有人说它将摧毁或削弱整个行业,如媒体、法律和教育。还有人认为这是人类灭亡的开始,要么是通过抑制我们的大脑,要么是欢迎新形成的人工智能霸主的到来。

更加积极的人指出,ChatGPT 的能力可以开启新的赚钱方式,减轻我们的劳动,加快我们的教育,激发我们的思想,解决复杂问题,节约更多时间,提高我们的生产力,并普遍扩大所有人的获取和机会。

但尽管有许多不同的观点,共识是 ChatGPT 是指数变化的先驱,带来普遍的颠覆和创造性的破坏。

ChatGPT 确实标志着从人们普遍接受人工智能到其触及我们生活许多方面的重大范式转变。然而,生成式人工智能不太可能完全篡夺我们的现实。生活将继续,尽管有些许不同,并仍在人类控制之下。但在哪些人的控制之下呢?

权衡对现有企业和行业的初期影响

尽管预测生成式人工智能总体和特别是 ChatGPT 的全面影响是困难的,但我们现在可以做出一些合理的预测。主要是,ChatGPT 将对知识工作者产生最大影响——即主要从事知识的收集、分析、应用和分发的人员。

最有可能从这项技术中早期和实质性地受益的企业和行业包括以下几个方面:

  • 医学研究和发展

  • 生物黑客

  • 医疗保健

  • 教育

  • 媒体

  • 市场营销和广告

  • 法律

  • 艺术

  • 零售

  • 金融服务

  • 研究

  • 搜索引擎

  • 图书馆科学

  • 出版

但毫无疑问,ChatGPT 及其同类将迅速在各行各业中变得无处不在。它的持续存在是不可避免的,但其对各种实体的影响强度将有所不同。

应对未来的动荡

借用星际迷航中博格的一句话,“抵抗是徒劳的。”换句话说,人工智能的精灵不会回到瓶子里。无论你对必然性的表达选择是什么,ChatGPT 及其竞争对手都将留下来。

忽视它或试图禁止它最多只会导致暂时的停顿,但更有可能是创造一个生成式人工智能的地下社区。更好的建议是努力发现你可以如何在个人生活、职业、业务和行业中利用这项技术。留意表明其对经济和就业趋势的影响的指标,这样当机会出现时你就可以利用它。

不要满足于涉猎 ChatGPT 或跟随他人如何使用它。要明白你在人工智能方面的真正优势,以及与其他使用人工智能的人的区别在于你的思考和创造能力。因此,开始思考并创造利用 ChatGPT 的新方法。特别是,将你的提示技巧发展到你能想象的最高水平,然后进一步推动你的思维。查看 第三章 以帮助激励和引导你的努力。

接受知识就是力量。ChatGPT 可以访问大量信息,但这并不一定等同于知识。发展你的知识,使之能够以新颖独特的方式应用。

注意观察 ChatGPT 如何随着时间塑造和重新定义任务、行动、工作和行业。相应地迅速适应。

通过这些方式,你可以为自己和你的行业做好迎接这个新兴未来的准备。

打破无情机器霸主的咒语

ChatGPT 呈现出一种看似简单的软件程序。你提问,它回答。乍一看似乎没有更多内容。一旦你明白它的表现取决于你自己的能力,你可能会感到有些兴奋,但也会感到压力重重。

当你理解 ChatGPT 可能做到的事情时,你可能会感到不知所措,甚至有些受到威胁。这就是第一个可怕的幻觉所在。

许多外行人认为,由于人类必须使用计算机代码来指挥机器,机器的性能受限于这种精确的通信结构。换句话说,人们认为机器无法理解任何不以其独特的机器语言传递给它们的内容。也没有任何机器可以执行除了特定任务之外的任何职责。换句话说:假设机器无法理解我们,因此超出其有限理解范围的任何内容都安全地超出了它们的触及范围。

在这种情况下,语言被与智能混为一谈,但这两者并不相同。按照这种思维方式,能够理解我们语言并流利无缺地交谈的机器似乎理解了我们。而且由此延伸,这意味着没有安全的存在、思考或交谈的地方是机器无法渗透的。

令人不安的逐渐意识到,我们在许多方面并不像我们以为的那样独特。在那之后,就会出现对比我们更聪明的机器——科幻传说中的人工智能霸主——的征服恐惧。

但它们并不存在。它们不会到来。人工智能霸主并不存在。然而,对人工智能的不负责任使用可能会造成混乱、制造混乱并造成伤害。我们必须勤奋地为其建立防护措施,并为其道德和负责任的使用设定标准。

让恐惧阻碍我们对人工智能的使用是错误的。它可以带来许多好处。寻找这些优势并加以利用。

为更大的人工智能产品打开大门

正如前面提到的,ChatGPT 只是生成式 AI 的一个例子。它也只是生成式预训练变换器-3(GPT-3)和现在的 GPT-4 的一个用途,这两个模型比 ChatGPT 更大,适用于许多不同的自然语言任务。

ChatGPT 专为对话任务设计。在某些方面,它是一个很棒的工具,但也像一个带有训练轮的第一辆自行车,因为它是对更强大的 AI 用途和形式的良好介绍。

ChatGPT 可以帮助你做很多事情。它还可以打开大门,让你可以自信地走进一个 AI 是主流的未来。

在使用 ChatGPT 时要注意,你会发现可以在其他 AI 应用中学到的课程和技能。你可以随时返回 ChatGPT 并要求它向你解释其他 AI 应用。它可以快速教育你如何在一个与今天大不相同的未来中工作和生活。

对生成式 AI 类型进行分类

生成式 AI 是一种人工智能类型,可以生成任何形式的内容,包括文本、图像、音频和合成数据,这些是人工生成的数据,而不是从现实世界收集的数据。物理定律就是合成数据的一个例子。创建一个物理定律数据库可以应用规则,使另一种类型的人工创作在现实世界中发挥作用。

其他生成式 AI 模型的示例包括 DALL-E、Midjourney 和 Stable Diffusion,它们也是最知名的图像生成器。

有许多类型的生成式 AI 可用,但以下三种是最常见的:

  • 生成对抗网络(GANs):使用深度学习进行无监督数据发现。示例应用包括生成逼真的图像和复杂但逼真的图像编辑。

  • 基于 Transformer 的模型:识别上下文、含义和模式,以预测和生成文本、语音、图像和其他内容。示例应用包括 DALL-E 和 ChatGPT。

  • 变分自动编码器(VAEs):由编码器和解码器两个不同的神经网络组成。示例应用包括安全分析、异常检测和信号处理。

了解 ChatGPT 的创造者 OpenAI

OpenAI 是由技术和商业领袖 Sam Altman、Elon Musk、Greg Brockman 和 Wojciech Zaremba 于 2015 年创立的,旨在开发安全和开放的 AI 工具。其中包括 GPT-1 和 GPT-2。

2019 年,该公司转向了一个有限利润的商业模式,该模式被该组织的领导描述为“营利性和非营利性的混合体”。其大部分工作集中在 AI 研究上。2021 年,OpenAI 发布了 DALL-E,这是一个基于 GPT-2 构建的生成式 AI 模型,可以生成逼真的图像。2022 年,该公司开发并训练了 GPT-3。2022 年 11 月,基于 GPT-3 构建的 ChatGPT 发布。GPT-4 于 2023 年初发布,目前驱动着 OpenAI 模型以及更广泛的软件应用市场中的许多模型。

现在你已经了解了 ChatGPT 的背景故事,知道了在哪里找到它,也不用害怕,你已经准备好开始作为自己 ChatGPT 体验的船长,开始一段迷人的旅程。

第二章

发现 ChatGPT 如何运作

本章内容

理解提示是什么

探索 ChatGPT 的架构

与超级计算基准的性能比较

理解 ChatGPT 的突破意义

乍一看,ChatGPT 看起来简单得令人难以置信。您在提示栏中提出问题或给出命令,它会以答案回应。这就是所有聊天机器人的工作方式,对吧?那么这个有什么特别之处呢?

在本章中,您将了解到 ChatGPT 对聊天机器人就像冰块对南极洲一样重要。您将了解它的工作原理的基础以及为什么它依赖于您的技能来优化其性能。但这里真正的宝藏是关于如何编写提示以使 ChatGPT 发挥其真正魔力的技巧和见解。

本章为您提供了理解和使用 ChatGPT 所需的大部分信息。即使您在本书中什么都不读,也要阅读它。

ChatGPT 有何不同

ChatGPT 与搜索引擎不同。搜索引擎如 Google 或 Bing,或者诸如 Siri、Alexa 或 Google 助手之类的 AI 助手通过在搜索栏中输入的关键字在互联网上搜索匹配项。算法根据各种因素细化结果,但您的浏览历史、主题兴趣、购买数据和位置数据通常会影响结果。

然后,您将看到一个按照搜索引擎算法确定的相关性顺序排列的搜索结果列表。从那里,用户可以考虑每个选项的来源并点击选择,以从该来源深入了解更多细节。

相比之下,ChatGPT 生成自己对您的提示的统一答案。它不提供引用或注明来源。您提问;它回答。简单易行,对吧?不。这对 AI 来说是极其困难的任务,这就是生成式 AI 如此令人印象深刻的原因。

通过使用 GPT-3(生成式预训练变压器 3)或 GPT-4 模型分析上下文并预测可能跟随的单词,从而实现对提示的原始结果的生成。这两个 GPT 模型都是极其强大的大型语言模型,能够每秒处理数十亿个单词。

简而言之,变压器使 ChatGPT 能够生成连贯、类似人类的文本作为对提示的响应。ChatGPT 通过考虑上下文并为可能跟随提示中的单词的单词分配权重(值)来创建响应,以预测哪些单词将是适当的响应。

用户输入被称为提示,而不是命令或查询,尽管它可以采取任一形式。实际上,您正在提示 AI 预测和完成您通过输入提示启动的模式。

能够快速创建符合用户意图和提示上下文的自然语言响应,对于机器来说是一个惊人的成就。当响应足够快,以至于 AI 模型似乎在与用户对话时,这一成就更加突出。尽管早期存在一些缺陷,GPT-3 和 GPT-4 仍然是现代奇迹。

查看 ChatGPT 架构

正如其名称所示,ChatGPT 是运行在 GPT 模型上的聊天机器人。GPT-3、GPT-3.5 和 GPT-4 是由 OpenAI 开发的大型语言模型(LLMs)。当 GPT-3 推出时,它是拥有 1750 亿个参数的最大 LLM。升级版 GPT-3.5 turbo 是 GPT-3 的高度优化和更稳定的版本,对开发者来说价格是原来的十分之一。ChatGPT 现在也可在 GPT-4 上使用,这是一个多模态模型,意味着它接受图像和文本输入,尽管其输出仅为文本。尽管 GPT-4 的确切参数数量尚未披露,但它是迄今为止最大的 LLM。

参数是神经网络架构中节点和层之间的连接的权重和定义的数值。模型的参数越多,其内部表示和权重就越复杂。一般来说,更多的参数会导致在特定任务上表现更好。例如,ChatGPT 的大量参数使其能够理解各种自然语言处理任务中微妙的细微差别和上下文复杂性。因此,它似乎具有即时推理的能力,因为它能够与用户流畅对话。

以前,微软的图灵 NLG,一个基于 transformer 的生成式语言模型,拥有 170 亿个参数的记录。GPT-4 目前是创建的最大神经网络。传言 GPT-5 更大,但目前尚未进行训练。一些 AI 专家认为没有理由训练一个更大的模型,因为 GPT-4 如此巨大,将在未来几年内发挥作用。我同意,鉴于用户和开发人员几乎没有探索 GPT-4 的潜力,没有必要急于推出 GPT-5。

探索超级计算机和 GPU 的内部结构

或许并不奇怪,OpenAI 和微软合作,考虑到它们各自为了相似的目标而努力。微软表示,他们与 OpenAI 合作建造了一个托管在 Azure 中的超级计算机,专供 OpenAI 使用,用于训练各种 AI 模型。根据微软的说法,与全球 Top500.org 列表上的其他超级计算机相比,这台超级计算机现在排名前五。

超级计算机 Top500 榜单编制了关于高性能计算机的统计数据,这些数据基于制造商和其他高端用户感兴趣的项目。虽然具体特征和指标可能有所不同,这符合现代超级计算机稳定演进和多样化的特点,但每份半年报告中的基本数据似乎包括已安装系统的数量、在这些系统上运行的应用程序以及基于比较基准的性能排名。

举例来说,这份榜单根据 LINPACK 基准测试对超级计算机的性能进行排名,具体来说,这些机器解决密集线性方程组的能力。结果是峰值性能的度量而不是整体性能。Top500 的研究人员还可以验证 LINPACK 的结果,以进一步确保排名的准确性。

超级计算行业用于评估超级计算机性能的其他基准包括 COPA、ReCoRD 和 SuperGLUE,后者测试推理和高级自然语言处理(NLP)任务。由 OpenAI 和微软联合建造的超级计算机在这三个基准测试中表现良好,但在另外两个基准测试中表现不佳:词汇上下文(WIC)分析和 RACE(重述、回答、引用证据、解释)响应评估。

令人意外的是,这台超级计算机在中小学考试问题(RACE 基准测试的结果)上表现不佳,而在解决密集线性方程组的 LINPACK 基准测试中表现出色。简单的事情往往会让人工智能出错,但复杂性并不是错误发生的决定因素。你不应该期望 ChatGPT 在不同复杂问题层次上表现一致。它可能在回应任何提示时出错或表现出色,无论简单还是复杂。

无论如何,可以肯定地说,考虑到 GPT 模型的巨大规模和能力,训练任何一个都需要比大多数庞大计算巨头领域更强大的超级计算机。

Nvidia 是图形处理单元(GPU)提供商,也是这个故事中的第三方合作伙伴,他们的角色丝毫不可小觑。GPU 是一种专门设计用于快速图像渲染的电子电路,现在通常被利用其同时处理多个数据片段的能力。

为 OpenAI 开发的 GPU 加速超级计算机是一个单一系统,拥有超过 285,000 个 CPU 核心、10,000 个 GPU 和每个 GPU 服务器 400 千兆每秒的网络连接速度。所有 OpenAI 模型都是在 NVIDIA V100 GPU 上运行的微软高带宽集群上进行训练的。

此外,所有 OpenAI 模型的模型训练都是在 cuDNN 加速的 PyTorch 深度学习框架上进行的。但是,针对任何给定的 AI 模型,具体的架构参数是根据最佳的计算效率和跨 GPU 的负载平衡来选择的。

考虑到变压器的重要性

ChatGPT 使用多层变压器网络来生成对用户提示的响应。变压器是一种神经网络架构。在人工智能中,神经网络是一种使用一组算法模仿人脑的处理节点网络。你可以将 AI 大脑中的节点想象成人脑中的神经元一样工作。

不同类型的变压器可用,每种适用于特定的数据类型,如文本或图像。ChatGPT 使用适用于语言处理的变压器。

变压器是由谷歌和多伦多大学的研究人员于 2017 年开发的,最初设计用于处理翻译,其中上下文而不是单词顺序对于传递另一种语言中的相应含义更为关键。但变压器也被证明是更复杂的语言处理任务的基石。变压器的一个重要优势是它们可以被有效地并行化,这意味着它们可以扩展到处理异常大的 AI 模型及其训练需求。

没有变压器的出现,GPT 整体和特别是 ChatGPT 无法产生如此类似人类的输出。

变压器及其工作原理的具体细节非常技术性。在本章中,我涉及变压器中可能最重要的一个部分:自注意机制。自注意的简短且因此过于简化的解释是一个 AI 模型已经内化了对同一个词的各种表示的理解。

考虑到许多词汇有多重含义。在美国英语中,柠檬可以是一种水果或表现不佳的产品。同样,服务器可以是一种计算设备或一名服务员。在英语中,lift 是电梯的意思,但在美国英语中意味着搭乘别人车辆的意思。

ChatGPT 可以根据上下文区分一个词应该承载的含义,也就是说,通过考虑句子中围绕它的单词。这种能力非常类似人类,对于机器来说极其困难。

布景:训练模型

尽管许多公司正在训练自己的 AI(以各种形式和用途),但这项任务最好留给那些有能力和深厚资金支持的人来成功完成。在这种情况下,当像 ChatGPT 这样的 AI 模型通过浏览器或应用程序轻松可访问和可用时,你可以看到对大众的吸引力。

尽管作为一个免费工具首次亮相,ChatGPT 是 OpenAI 构建和维护的一种昂贵且复杂的模型。例如,ChatGPT 使用深度学习,这是一种计算和能源消耗巨大的技术。仅仅存储足够训练一个 AI 模型的大型数据库就会迅速耗尽资源。训练任何大型语言模型需要大量的人力、能源、数据和努力。这是一项非常昂贵的练习,具有同样高昂的重复成本。

但在 GPT 的情况下,结果证明是值得的。据称,GPT-4 是世界上最大的语言模型。由于如此庞大的人工智能模型所带来的能力,ChatGPT 成为了全球轰动。根据《华尔街日报》的报道,其创造者 OpenAI 的估值已达到 290 亿美元,且还在不断增长。

ChatGPT 模型是在一个庞大的数据库上进行训练的,该数据库包含了从几乎整个互联网中抓取的文本,截至 2021 年。OpenAI 表示,训练数据包括约“570GB 的数据集,包括网页、书籍和其他来源”。

最初的模型还接受了人类教师精细调整的数据训练,这些教师扮演了人类和机器的双重角色,指导它区分适当与不适当的回应。OpenAI 表示,然后将这个新创建的对话数据集与 InstructGPT 数据集混合,并将其转换为对话格式。

这个过程被称为来自人类反馈的强化学习(RLHF)。具体的方法可能会因个别模型训练实例而异。换句话说,RLHF 可以被调整以适应特定模型训练需求。

这个过程的强化部分来自于一组比较数据和人类的回复,通过点赞或点踩的排名系统。正如你在图 2-1 中所看到的,每个 ChatGPT 回复的顶部都有两个大拇指。对你收到的回答进行排名有助于通过强化机器的学习来进一步训练模型。

图 2-1: 将 ChatGPT 作为免费研究模型发布的一个主要原因是为了让 OpenAI 能够得到公众的帮助来进行训练。

如果你不喜欢 ChatGPT 生成的回复,你可以点击重新生成回复按钮(参见图 2-1)让它再试一次。一定要对每个回复进行评分,这样模型才能学习如何提高性能。

同样,AI 训练者随机选择了他们与训练模型之前的对话,并对回复进行了排名。奖励模型,如 ChatGPT 上的点赞、点踩评分,然后可以用于通过一种称为近端策略优化的过程对模型进行微调。OpenAI 博客文章中的图 2-2 展示了这个完整的训练过程在一个图表中。

图 2-2: OpenAI 训练 ChatGPT 模型的过程。

理解对话格式的重要性

ChatGPT 可以在 95 种语言中运行,涵盖了各种人类母语和地区方言,以及大量的计算机语言和数学方程式。你还可以使用混合支持的语言进行聊天。例如,你可以在提示中包含计算机代码或片段,以及指示 ChatGPT 对该代码执行某些操作的说明,如 图 2-3 所示。指令可能是查找代码中的错误或漏洞,编写新代码,或完成编写程序。

选择语言使得使用人工智能对用户来说更加容易和舒适。专家和普通人很快就会忘记 ChatGPT 是一个技术奇迹,经常开始像与朋友或同行交谈一样与它聊天。

再次提醒您不要把 ChatGPT 当作一个人。你与 ChatGPT 说或做的任何事情都可能被用于 AI 的绩效评估和未来 AI 模型的训练数据集。这位所谓的朋友没有秘密。OpenAI 已经提供了警告,但记住这一点取决于你。

思考 ChatGPT 的局限性

使 ChatGPT 能够创建回复的东西正是使其不可靠的原因。为了让人类或机器想象出不存在的东西,比如小说或电影中的虚构世界,它们必须首先摆脱基于现实规则的严格限制。

图 2-3: ChatGPT 理解并使用人类和计算机语言。

但切断这种联系使得人工智能可以放弃对真相的偏好,因为真相是事实,事实是现实,但想象是独立的,或者最多是与现实相关的。因此,ChatGPT 可以随意编造任何答案给你。有时候你希望它这样做,因为你希望它的回应以创造性的方式构思,或包含创新的想法。但有时候 ChatGPT 给出的回应是完全错误的,甚至可能令人反感。请记住,ChatGPT 正在预测哪些词将跟随你的提示,满足你的意图,并遵循提示中的上下文。当它预测 — 或猜测 — 错误,但自行确定这个错误的回应有很高的正确概率时,它被称为在幻觉。

换句话说,它的答案可以被无可否认地证明是错误的,但模型却有很高的自信认为它是正确的。而且,不,你可能不会仅仅通过看它的答案就意识到这一点。在依赖 ChatGPT 的回答之前,你需要进行一些彻底的事实核查。

需要注意的是,ChatGPT 并不总是等待你告诉它要创造性或想象力才开始编造东西。然而,在长时间的对话中,ChatGPT 更有可能产生幻觉并变得言语攻击性。由于这种倾向,一些嵌入 ChatGPT 的应用程序会限制单个会话中的聊天大小,或限制每个用户每天的会话次数。

尽管 OpenAI 对模型施加了限制,但 ChatGPT 仍然可能提供不当、不安全和冒犯性的回应。

图 2-4: OpenAI 首席执行官 Sam Altman 关于 ChatGPT 可靠性的推文。

以下是 ChatGPT 的一些限制:

  • 训练模型不冒犯人有时会导致模型过于谨慎,更有可能拒绝不必要地回答问题。

  • 尽管 OpenAI 对模型施加了限制,但 ChatGPT 仍然可能提供不当、不安全和冒犯性的回应。

  • 它可能生成完全不真实、有时激进且有点不稳定的答案。

  • 它根据自己可以访问的数据和所学到的知识来决定理想答案,而不是根据用户知道或期望的内容。因此,无论事实上正确与否,其输出可能不符合用户的期望或要求。

  • 它对提示的措辞过于敏感。重复或重新措辞提示会引发不同的回应。

  • 反复输入相同提示可能导致不同答案、重复的措辞或激进的回答。

  • 由于训练偏见,模型往往喜欢冗长而不是简洁,其中人类训练者更倾向于给出长答案来回应训练提示。

  • 它猜测您寻求的答案,而不是询问您更好地理解您想要什么。

这段对 ChatGPT 可靠性或缺乏可靠性的描述并不减少它所代表的惊人技术成就。这个列表只是一个警告,提醒您在使用 ChatGPT 输出之前始终要事实核查。

增加版本和集成数量

ChatGPT 的免费研究预览版本于 2022 年 11 月 30 日以公测形式发布。公司表示免费版本将在此公测发布之后继续提供。与此同时,名为 ChatGPT Plus 的高级版本于 2023 年 2 月 1 日发布。发布时的价格为每月每用户 20 美元。本书关注这两个版本,这也是初学者可能首次遇到和尝试的版本。

GPT-4 是 ChatGPT 目前运行的最新模型,但用户目前可以选择是否使用 GPT-3、ChatGPT-3.5(目前的默认版本)或 ChatGPT-4。

ChatGPT 正在与许多现有软件集成,因此您可能会在工作、业务或个人空间中遇到不同版本。此外,企业版本正在迅速涌现和发展,随着时间的推移,这将导致更多的软件集成。

作为许多类型集成的示例,本节从微软在必应中集成 ChatGPT 开始。如图 2-5 所示,要使用 ChatGPT 集成的必应,您需要下载最新版本的必应。下载完成后,您将在 Windows 任务栏中找到它。

图 2-5: 集成了 ChatGPT 的微软必应。

另一个有趣的微软集成是 Visual ChatGPT,这是 ChatGPT 与一系列视觉基础模型的融合,这些模型是在更广泛的数据集上训练的算法,以实现更多功能。Visual ChatGPT 使用户能够在与 AI 文本聊天时发送、接收和编辑图像。

您可以在 GitHub 上查看 Visual ChatGPT 演示并获取更多技术信息,网址为https://github.com/microsoft/visual-chatgpt。如图 2-6 所示,在向下滚动 GitHub 页面时,您会发现一个演示。用户可以在提示中插入图像,并要求 ChatGPT 生成符合提示要求的图像。您还可以在聊天过程中编辑图像。

图 2-6: GitHub 上 Visual ChatGPT 的演示部分。

对于希望定制 ChatGPT 以更精确地满足其需求的公司,请查看 Azure OpenAI Studio 中的 ChatGPT 定制界面。要开通免费试用账户,请访问https://azure.microsoft.com/en-in/free/cognitive-services/

毫无疑问,微软和其他公司将发现许多更多的方式在其现有和未来软件中使用 ChatGPT。事实上,许多公司目前正在使用 ChatGPT API(应用程序编程接口)和越来越多的插件,以更充分地利用 ChatGPT 的功能。

简而言之,ChatGPT 不是一时的奇迹。它是一个多功能工具,将继续发展,并最终成为许多其他软件应用程序的支柱。它的同行也将如此。

在微软插件中看到 ChatGPT

正如提到的,微软和 OpenAI 合作培训 AI 模型。因此,ChatGPT 迅速与 Office365 和其他微软产品集成在一起并不奇怪。也许令人惊讶的是,还有第三方的 ChatGPT 插件适用于微软产品。

以 Ghostwriter 为例,这是由软件开发人员和前微软顾问 Patrick Husting 开发的微软插件。像许多早期用户一样,他厌倦了将 ChatGPT 生成的文本剪切并粘贴到 Word 文档中,因此他制定了一个解决方案。这个解决方案 Ghostwriter 可以直接将 ChatGPT 文本流入 Word 中。

您可以在 Microsoft Office 商店中获取 Ghostwriter。支付 10 美元的一次性费用即可获得基础版,限制响应长度为几段,对于大多数一般用途来说是可以接受的。这样可以避免让 AI 无端发狂。

一次性支付 25 美元,您可以获得专业版,其中包含所有 ChatGPT 语言,并使您能够配置响应长度。保持提示性对话简短,并创建新的聊天以继续您的工作,以减少遇到 ChatGPT 幻觉(随机和错误答案)或冒犯性爆发的风险。

如果您想尝试 Ghostwriter 或查看其他 ChatGPT 插件,请按照以下步骤操作:

  1. 打开任何办公产品,如 Word、Excel 或 Outlook。

  2. 点击“插入”选项卡。

  3. 点击“插件”选项卡。

  4. 图 2-7 是 Word 的插件屏幕。

  5. 从下拉菜单中选择一个插件,或在搜索栏中输入插件的名称。

图 2-7: Ghostwriter ChatGPT 插件。

通过 API 的力量推广 ChatGPT

2023 年 3 月 1 日,OpenAI 推出了一个应用程序编程接口(API),这是一种连接器,可以让应用程序相互通信。API 使开发人员更容易将 ChatGPT 与其组织的产品、服务、应用程序和网站集成在一起。推出时的价格为每 1000 个令牌 0.002 美元。就人工智能价格标签而言,这相对便宜,使得大多数开发人员从成本的角度来看,ChatGPT 很容易获得。

为什么 API 的定价单位是令牌?ChatGPT 模型消耗带有元数据附加的消息序列,以原始格式称为 Chat Markup Language(ChatML)。传统上,GPT 模型将原始、非结构化文本作为令牌消耗。因此,ChatGPT 模型的输入呈现为一系列令牌,每个令牌包含单词片段。

令牌用于预测下一个令牌,然后下一个,然后——哇!——一个机器生成的叙述发生了。您可能已经注意到,这个过程并不像人类描述的大脑驱动过程那样思考。这个过程还以比简单的预测文本或智能手机上的自动更正功能或文档拼写检查器更快、更智能和多任务的方式预测文本。

顺便说一句,GPT 问题解决的预测性质导致了 GPT 生成的图像中出现了人手上的手指过多的奇怪问题。GPT 图像模型看到一个手指跟随另一个手指,但通常没有注意到手指的数量限制为五根,并且手指并非相同。因此,它通常会预测更多的手指,并以奇怪的方式绘制它们。如果 GPT 模型真的能够像孩子一样思考,它们可以检测到问题,并在每个包含正常人手的图像上放置正确数量的手指。

早期采用 ChatGPT API 的用户

Instacart、Shopify、Quizlet 和 Snap 是早期采用者和 ChatGPT API 实验者。

Instacart 正在增强其应用程序,以制作定制的购物清单;为学校午餐、家庭晚餐和社交活动创建菜单;并购买食谱,帮助您使用您已经有的食材。该公司的聊天机器人 Ask Instacart 是基于 ChatGPT API 构建的。

Shopify 计划推出基于 ChatGPT API 构建的新型购物助手。这款个性化助手将扫描数百万种产品,并根据顾客的尺寸、品牌偏好和个人风格提供个性化选择。

Quizlet 在推出 ChatGPT 之前使用了三年的 GPT-3。ChatGPT 被用于多种用例,包括词汇学习和练习测试。基于这些实验的成功,Quizlet 推出了基于 ChatGPT API 构建的 Q-Chat,作为学生的完全自适应 AI 导师。

Snap 为其高级产品 Snap Plus 推出了 My AI。My AI 是一个实验性功能,为应用用户添加了可定制的元素和交互。

随着 API 连接到更高效、经济的 GPT-3.5-turbo 和 GPT-4 模型,其他组织也在效仿,因为成本下降了。

扩展领域

扩展是一种小型、模块化的软件,用于定制或扩展浏览器的功能。通过浏览器扩展可以访问 ChatGPT。为什么要使用这些扩展?因为它们使从任何网站访问 ChatGPT 更快、更容易,并提供额外功能,如聊天导出器和建议提示列表。

以下是 Chrome 或 Microsoft Edge 浏览器上可用的一些扩展(一些是免费的)。其中一些也可以在 Firefox 浏览器上找到。您可以通过浏览器的扩展商店或在线搜索来找到它们。

  • ChatGPT Chrome 扩展:在 Google 搜索结果旁边显示 ChatGPT 的结果。

  • Merlin:让 ChatGPT 撰写响应并回复电子邮件,总结文档内容,对电子表格中的数学进行计算等。

  • 增强版 ChatGPT:为普通 ChatGPT 界面添加了有用的功能,并提供您可能想要使用的常见提示。

  • WebChatGPT:在 ChatGPT 响应中添加了当天的互联网结果,这些结果与 2021 年的互联网版本相连。这个扩展尝试整合这两者,结果常常参差不齐。OpenAI 的 ChatGPT 浏览插件可能会做得更好。

  • Promptheus:让您可以简单地说出您的提示,而不是输入。在 ChatGPT 提示栏中按下键盘上的空格键并说话。

  • ChatGPT 导出和分享:将 ChatGPT 中的文本导出到您正在使用的应用程序中。您还可以将 ChatGPT 的响应保存为图像或 PDF,并分享链接。

小心使用任何类型的扩展,无论是与 ChatGPT 相关还是其他类型的扩展,以及任何浏览器,因为扩展可能携带恶意软件。在启用扩展之前,请确保扩展的安全性。请注意,我没有审查任何扩展,以确保它们是安全且没有恶意软件。相反,我在这里仅列出它们作为示例。

还有更多 ChatGPT 扩展可供探索。在浏览器的网络商店中查看它们。但是,请再次注意小心!

基于 ChatGPT 构建新业务

ChatGPT 为用户提供了许多商业机会。例如,它可以生成与商业计划相匹配的商业创意。当一位 Hackernoon 的作者提出要求时,它提出了五个商业创意,每个创意潜在价值数百万美元:一种新的可再生能源生成方式,一个远程工作平台,一种新的交通方式,一种新的数据存储方式,以及一种使医疗保健更加可及和负担得起的方式。

ChatGPT 还可以撰写或建议改进商业计划。计算更好的定价模型。战略性优化供应链。概括法律文件,以便快速简便阅读。填写银行贷款和信用卡申请。计算税务影响。确定工资税。以及回答其他复杂的商业问题。

它可以快速自动化业务通信,从回复电子邮件到撰写营销和网页文案。它可以撰写几乎任何类型的商业文本,包括工作说明书(SOW)、合同、服务级别协议(SLA)、保修书、遗嘱和政策。

ChatGPT 与搜索的对比

|

ChatGPT

|

搜索引擎

|

|

生成单一叙述

|

生成一系列潜在相关信息的列表

|

|

不引用来源

|

揭示来源

|

|

目前不生成图像

|

提供一组相关的图像

|

|

预测回应

|

匹配关键词

|

|

可以产生幻觉

|

不会产生幻觉

|

|

可以提供错误信息

|

可以提供错误信息

|

|

对性能至关重要的提示

|

对性能至关重要的关键词

|

ChatGPT 也可以成为现有写作和出版业务的支柱。小说作家可以使用它来生成故事创意、情节和角色。非小说作家可以使用它来撰写文章、白皮书、电子书等的初稿,以作者个人的写作风格和语调。然后作者只需核实事实并调整输出,即可产生一个快速但精心制作的草稿,适合提交。或者作家可以使用 ChatGPT 作为编辑,使文本更干净,然后再提交给人类编辑或出版商。并且,ChatGPT 在编写本书时没有用于这些目的。

此外,ChatGPT 及其同类也可以用作业务的支柱。例如,人们已经开始使用 DALL-E 创建艺术作品并在线销售。��术品可以按需打印,从而减少生产浪费和开销,同时降低进入这一新业务领域的门槛。

ChatGPT 也可以用于帮助制作电子书、印刷书籍、手册和其他面向大众消费的文本作品。ChatGPT 还可以通过生成自助文本为客户、呼叫中心脚本、退货说明、产品组装说明和其他支持文档提供支持。

ChatGPT 甚至可以成为生成商业收入的主要工具。例如,一些人可能会被 ChatGPT 吓到 - 或者迫切需要更好的提示 - 并会雇人代表他们使用 ChatGPT。

ChatGPT 可以与 3D 打印技术结合,从根据 ChatGPT 生成的蓝图打印房屋到创建符合 NASA 精确规格的航天器零部件,应有尽有。

人类的想象力和及时的技能是使用这项技术的唯一限制。这就是使 ChatGPT 如此令人惊奇 - 也是如此可怕的原因。

第三章

为 ChatGPT 编写提示

本章内容

学习提示基础

掌握提示工程

预算令牌

连锁提示和其他策略

在线程中聊天

在本章中,你将学习如何像专业人士一样使用 ChatGPT 提示。这有点像微波炉:你告诉它要做什么,它就会做,不需要技术技能或理解。然而,如果你想要的输出不仅仅是一般的百科全书式叙述,你必须掌握提示技巧。

实际上,提示既是使用生成式 AI 模型的简单部分,也是最困难的部分。基于文本提示的线索和细微差别的复杂性是一些组织设立提示工程职位的原因。提示工程是制作输入的行为,这部分是艺术,部分是逻辑。是的,你可以做到这一点!然而,在申请工作之前,你可能需要练习和提高你的提示技能。

如果你精通语言的微妙之处,具有出色的批判性思维和问题解决能力,再加上直觉智慧,你会对用一个精心措辞的提示从这项技术中引出的回应感到惊讶。

提示基础

ChatGPT 看起来简单得令人误解。用户界面优雅简约且直观,如图 3-1 所示。页面的第一部分向用户提供有关 ChatGPT 的能力和限制以及一些提示示例的信息。

图 3-1: 免费研究预览版本的 ChatGPT 屏幕。

类似搜索栏的提示栏横跨页面底部。只需输入一个问题或一个命令,即可提示 ChatGPT 立即产生结果。

如果你输入一个基本提示,你会得到一个简单的、类似百科全书的答案,如图 3-2 所示。如果你这样做足够多次,你会让自己相信这只是一个玩具,你可以从互联网搜索引擎中获得更好的结果。这是一个典型的初学者错误,也是初学者在完全掌握 ChatGPT 的能力和功能之前放弃的主要原因。

请理解,你以前对关键词和搜索引擎的经验在这里不适用。你必须以不同的方式思考和使用 ChatGPT。认真考虑你将如何措辞你的提示。你有很多选择要考虑。你可以给 ChatGPT 分配一个角色或者一个角色,或者如果你决定它应该作为一个团队回应,你可以分配几个角色和角色,就像图 3-3 所示。

图 3-2: ChatGPT 回应一个商业计划的一般概要。

你也可以给自己分配一个新的角色或人设。或者告诉它要面向任何类型的观众 —— 比如高中毕业班、外科团队,或者音乐会或技术大会的参与者。

您可以以详细或最少的细节设定舞台或情境。您可以提问,给出命令,或要求特定的行为。

如你现在所见,提示远不止是一个问题或一个命令。你与 ChatGPT 的成功取决于你掌握如何精心制作提示,以触发你所寻求的精确回应的能力。

在撰写或评估提示时,请问自己以下问题:你希望 ChatGPT 是谁?你希望 ChatGPT 的回应在何时何地以及在什么情况或环境中?你输入的提示问题是你真正想要它回答的问题,还是你试图问其他问题?你所提示的命令是否足够完整,以便 ChatGPT 从足够的上下文中汲取,给出更完整、更丰富和更细致的回应?

你需要考虑的最终问题是:你的提示是具体详细的,还是模糊而漫无目的的?无论哪种情况,ChatGPT 在其回应中都会反映出来。

图 3-3: ChatGPT 以医生团队的形式回应。

ChatGPT 的回应只有你的提示好,才会好。这是因为提示启动了 ChatGPT 必须完成的模式。在如何呈现这个模式的启动器 —— 提示方面,请有意识且简洁。

开始聊天

要开始聊天,只需在提示栏中输入一个问题或命令,如图 3-4 底部所示。ChatGPT 会立即回应。您可以通过再次使用提示栏来继续聊天。通常,您这样做是为了获得更多见解,或者让 ChatGPT 进一步完善其回应。

图 3-4: ChatGPT 用户界面。

以下是一些你可以在提示中做的事情,可能并不容易察觉:

  • 在提示中添加数据,以及关于如何处理这些数据的问题或命令。直接在提示中添加数据使您能够添加更多当前信息,同时使 ChatGPT 的回应更具可定制性和针对性。您可以使用浏览插件将 ChatGPT 连接到实时互联网,这将使其可以访问当前信息。但是,您可能仍然希望在提示中添加数据,以更好地将其注意力集中在手头的问题或任务上。但是,提示和回应的大小是有限制的,因此请尽可能简洁地制作您的提示。

  • 指导风格、语气、词汇水平和其他因素��以塑造 ChatGPT 的回应。

  • 命令 ChatGPT 在其回应中扮演特定的角色、职务或权威级别。

如果您正在使用 ChatGPT-4,您很快就可以在提示中使用图像。ChatGPT 可以从图像中提取信息,用于分析。

当您完成特定主题或任务的聊天时,最好开始一个新的聊天(通过单击或点击左上角的新聊天按钮)。开始新对话可以防止让 ChatGPT 感到困惑,否则它会将后续提示视为单个对话线程的一部分。另一方面,对于相同主题或相关主题开启太多新聊天可能会导致 AI 使用重复的措辞和输出,无论它们是否适用于新聊天的提示。

总结一下:不要通过在一个长时间的连续线程中进行聊天并频繁更改主题或通过在相同主题上开启太多新聊天来让 ChatGPT 感到困惑。否则,ChatGPT 可能会说出冒犯性言论或编造随机错误答案。

在编写提示时,将主题或任务限制在狭窄范围内。例如,不要就赛车、维修和保养进行长时间的聊天。为了让 ChatGPT 更专注,将您的提示限制在一个单一主题上,例如确定车辆何时达到最高置换价值,以便您可以最好地抵消新车价格。您的回复将更高质量。

如果聊天时间过长,ChatGPT 可能会称呼您冒犯性的名字,并编造一些东西。较短的对话往往可以减少这些奇怪的事件,至少大多数行业观察者是这样认为的。

例如,当 ChatGPT 对必应用户的回复变得不稳定和争论性时,微软将与其的对话限制为连续 5 个提示,每天每个用户总共 50 个对话。但几天后,它将限制增加到每个对话 6 个提示,每天每个用户总共 60 个对话。当 AI 研究人员能够控制机器达到可接受的 — 或至少是较少冒犯性的水平时,这些限制可能会增加。

查看您的聊天记录和更多

在主 ChatGPT 屏幕的左侧(参见图 3-4),在新聊天按钮下方,是您与 ChatGPT 的最近对话的运行列表。该列表存在是为了您想要返回或查看早期对话。只需单击您想要查看的对话。它会打开,您可以通过在提示栏中输入内容继续对话。

存储空间有限,因此预计聊天记录会在一段时间后消失。您可以按照以下方式管理这种情况:

  • 删除您不想在 ChatGPT 上存储的个别聊天,以释放更多存储空间。

  • 在设置下使用导出功能导出您的聊天记录(包括帐户详细信息和完整对话)作为可下载文档,该文档将通过电子邮件发送给您。请注意在单击导出数据后出现的屏幕上的警告(参见图 3-5)。

    图 3-5: 在您最终授权导出聊天记录之前会出现一个警告屏幕。

  • 将 ChatGPT 对话存储在其他地方,方法是将它们复制粘贴到诸如 Word 文件之类的文档中,然后将文档存储在 OpenDrive 或其他文档和存储空间中。

在聊天历史部分之后的最后五个按钮提供了一些基本的日常事务项目:

  • 清除对话将删除所有聊天记录。您可以通过点击一个聊天,然后点击出现的垃圾桶图标来删除单个聊天。

  • OpenAI 保留所有聊天数据,包括提示和回复。从 ChatGPT 界面删除聊天并不会从 OpenAI 服务器中删除它们。

  • 我的计划显示了升级或管理您的订阅以及处理任何计费问题的方法。

  • 设置允许您将屏幕切换到暗模式,删除您的帐户,或将数据导出到可下载文件,该文件将通过电子邮件发送给您。邮件可能需要一段时间才能到达,请不要惊慌,如果您没有立即看到邮件,请不要重复该过程。

  • 点击“获取帮助”将带您进入一个常见用户问题的 FAQ 列表。它还可以访问 ChatGPT 发布说明。

  • 注销会注销您当前的 ChatGPT 会话。为防止他人访问您的工作,请确保在使用 ChatGPT 时在公共或共享计算机上点击或轻触注销。

理解提示工程

AI 中的提示工程指的是将任务描述嵌入输入(称为提示)中,以自然语言格式而不是通过计算机代码输入明确指令的行为。提示工程师可以是经过训练的 AI 专业人士,也可以是具有足够直觉智能或可转移技能以制定引导产生所需输出的提示的人。一个可转移技能的例子是记者在采访中利用直接或间接方法找出他们寻求的答案的能力。

基于提示的学习是 AI 工程师用来训练大型语言模型的策略。工程师使模型多功能化,以避免为每个新的基于语言的任务重新训练它。

目前,对有才华的提示撰写者或提示工程师的需求非常高。然而,关于雇主是否应将这种独特技能作为专门的工作角色、一个新的职业,或者作为大多数工作者必须具备的通用技能,就像今天的打字技能一样,存在着激烈的辩论。

与此同时,人们正在在几个论坛上与其他 ChatGPT 用户分享他们的提示。您可以在 GitHub 上看到一个例子,网址为https://github.com/f/awesome-chatgpt-prompts

绕过令牌限制和用户历史存储问题

ChatGPT 会自动记录您所做的每个提示。这些记录用于进一步完善模型,可能用于训练未来的 OpenAI 模型。用户无法访问这些记录的全部内容。然而,正如之前讨论的,一定数量的聊天记录(提示和回复)会保留在 ChatGPT 用户界面左侧的运行列表中。为了充分利用有限的空间,您可以删除不需要存储的聊天记录,复制或导出数据以存储在其他地方,或在完成后要求 ChatGPT 总结对话,如图 3-6 所述。

图 3-6: ChatGPT 告诉您如何总结以前的聊天,以保留其精髓,同时释放聊天历史中的存储空间。

ChatGPT 在同一聊天中记住您之前提出的问题,并随着对话的进行而建立在此基础上,但仅限于一定程度。具体来说,该模型记住了对话中的最多 3,000 个单词,或 4,000 个标记。它不能引用其他对话,无论这些早期对话是在几分钟前还是几周前。

如前所述,ChatGPT 将您的提示分解为标记。但标记不一定由整个单词组成,因为空格和其他信息也可以包含在标记中。OpenAI 建议开发人员将标记视为“单词的片段”。

英语比许多其他语言更简洁,因此通常需要更少的标记来处理提示。以下是几种在英语中考虑标记测量的方法:

  • 1 个标记大约等于 4 个字符。

  • 100 个标记大约相当于 75 个单词。

  • 两个句子大约相当于 30 个标记。

  • 一个典型的段落大约有 100 个标记。

  • 一个 1500 字的文章总共约有 2048 个标记。

标记用于成本计算,也用于 ChatGPT 中输入和输出的限制。根据 AI 模型的不同,从输入到输出的对话(聊天)整体限制为 4097 个标记。因此,如果您的提示非常长,比如 4000 个标记,您得到的回复将在 97 个标记处截断,即使这是在句子中间。

如果您想知道您的提示有多少标记,请使用 OpenAI 的 Tokenizer 工具,该工具显示在图 3-7 中,并在线找到https://platform.openai.com/tokenizer。请注意,标记限制可能会随时间变化,因为它们基于当前的技术限制,而不是像定价模型这样的任意因素。

图 3-7: OpenAI 的 Tokenizer 工具,用于了解 API 如何将单词分解为标记。

为了在标记限制内充分利用聊天,您可以在输入 ChatGPT 的提示栏之前将输入和输出压缩。要自己压缩提示,请在其他地方写下来并在输入提示栏之前进行编辑。目标是尽可能简洁或压缩。这是更好的方法,因为您的大脑运转不需要任何标记。

您还可以要求 ChatGPT 压缩您的提示。只需将提示用引号括起来,并附上告诉 ChatGPT 压缩引号中部分的文本。ChatGPT 以压缩提示回应后,将其输入到新的对话中,并等待其回应。同时,删除第一个对话(您在其中要求 ChatGPT 压缩提示的对话)。

您还可以要求 ChatGPT 压缩或总结回应。压缩回应意味着将其编辑成比原始回应更紧凑和更短的形式,大部分内容保留。总结回应意味着 ChatGPT 只会提供亮点。然后删除对话的较长版本。这将释放存储空间,以便在您的对话历史中保存更多对话。

您还可以策略性地将摘要或压缩回应连续移动到新的对话中,以获得更长的回应(在对话令牌限制内)。但这种方法不适用于常规对话。请谨慎使用,仅在需要时使用。

如果由于令牌或字符限制而导致回应被截断,请提示 ChatGPT 从[被截断的文本]继续。然后考虑根据需要要求 ChatGPT 总结或压缩回应。

思考线程

对话发生在一个实体的表达引发并影响另一个实体的回应时。大多数对话不会在简单的一来一回之后结束,而是在与其他参与者的互动中引发的一系列回应中继续进行。对话中的一系列消息称为线程。

为了提高与 ChatGPT 的成功率,请将提示作为线程的一部分而不是独立的查询。通过这种方式,您将制定针对所需输出的提示,构建一个输出在另一个输出上,以达到预定的目标。换句话说,您不必把所有内容都堆积在一个提示中。您可以编写一系列提示,以更精确地引导 ChatGPT 的“思维过程”。

基本提示会导致回应过于一般或模糊。当您思考线程时,您不是要制定一系列基本提示;您要将您所寻求的内容分解为提示块,以引导 ChatGPT 的回应朝着您希望对话发展的方向前进。实际上,您正在使用序列化提示来操纵 ChatGPT 回应的内容和方向。

它是否总是有效?当然不是。ChatGPT 可能会选择与预期完全不同的回应,重复先前的回应,或者简单地产生幻觉。但序列化提示通常足够有效,使您能够保持对话的针对性,并使回应朝着您所寻求的目标流动。

您可以使用这种方法通过想象某人要求澄清您的想法或问题来塑造一个单一提示。编写提示时包含该信息,AI 模型将拥有更多所需上下文以提供智能和精细的答案。

ChatGPT 不会要求澄清你的提示;它会猜测你的意思。通过在提示本身一开始澄清你的意思,通常可以获得更高质量的回答。

连锁提示和其他提示和策略

这里有一个方便的其他提示和改进的清单,可以帮助你开始掌握提示艺术的路径:

  • 计划花费比预期更多的时间来设计提示。无论你写了多少次提示,下一个你写的提示都不会更容易。不要匆忙完成这一部分。

  • 从定义目标开始。你究竟想让 ChatGPT 提供什么?设计你的提示以推动 ChatGPT 朝着那个目标前进;如果你知道自己想要达到的目标,你就能设计一个能让你达到目标的提示。

  • 要像一个讲故事者,而不是一个质问者。告诉 ChatGPT 一个角色或一个知识水平,让它塑造自己的回答。例如,告诉 ChatGPT 它是一个化学家、一个肿瘤学家、一个顾问,或者任何其他职业角色。你也可以指示它回答,就好像它是一个著名人物,比如丘吉尔、莎士比亚或爱因斯坦,或者一个虚构的角色,比如洛基。给它一个你自己写作的样本,并指示 ChatGPT 写出它对你问题的回答,或者按照你的方式完成任务。

  • 记住,任何任务或思考练习(在合理和法律范围内)都是公平的,并且在 ChatGPT 的一般范围内。例如,指示 ChatGPT 检查你的作业、你孩子的作业,或者它自己的作业。输入一些计算机代码或文本段落,并指示 ChatGPT 找出其中的错误或背后的逻辑。或者跳过作业检查,让它帮助你思考。要求它完成一个让你困惑的想法、练习或数学方程。你可以提出的问题的唯一限制是你自己的想象力和 AI 训练者安装的少数安全规则。

  • 要具体。在提示中包含的细节越多,越好。基本提示会导致基本回答。更具体和简洁的提示会导致更详细、更微妙的回答,并且在 ChatGPT 的回答中表现更好——通常都在标记限制范围内。

  • 使用提示链作为制定策略的一种方式。提示链是一种用于构建聊天机器人的技术,但我们可以在这里重新想象它,作为在 ChatGPT 中使用组合或串行提示来制定战略计划的一种方式。这种技术使用多个提示来引导 ChatGPT 进行更复杂的思考过程。您可以将多个提示作为单个输入使用,比如告诉 ChatGPT 它是一个由几个担任不同角色的成员组成的团队,他们都要回答您输入的一个提示。或者您可以按顺序使用多个提示,其中一个的输出成为下一个的输入。在这种情况下,每个响应都建立在您刚刚输入的提示和您之前输入的提示之上。这种提示链会自然形成,除非您通过开始新的聊天来阻止 ChatGPT 考虑先前的提示。

  • 使用提示库和工具来改善您的提示。以下是一些示例:

    在 GitHub 上,您可以在存储库中找到大量经过筛选的列表,以及来自各种来源的大量免费提示工具。只需确保在使用或依赖它们之前仔细检查来源、应用程序和浏览器扩展是否存在恶意软件。

第四章

了解 ChatGPT 中的 GPT 模型

本章内容

在 ChatGPT 中比较三个模型

了解升级带来的差异

制定利用模型的计划

理解扩展提示的重要性

ChatGPT 的模型发展迅速。使用 GPT-3 的研究模型于 2022 年 11 月发布供公众训练和测试。到了 2023 年 1 月,Open AI 悄悄推出了一个升级版,GPT-3.5,这是一个更加稳定的版本,也是 GPT-4 的前身,后者于 2023 年 3 月发布。在本章中,您将了解这些模型以及每个模型对 ChatGPT 性能的影响。

总结模型进展

截至目前,ChatGPT 默认使用 GPT-3.5,但 ChatGPT Plus 用户可以从用户界面顶部中心的下拉菜单中选择任何列出的模型,如 图 4-1 所示。

本质上,GPT-3.5 是在完全训练之前的 GPT-4 的早期和部分体现。OpenAI 使用 Chat 3.5 进一步开发了几个专门的系统,包括 ChatGPT。

图 4-1: ChatGPT Plus 用户的模型选项和其他选择。

GPT-3.5 的逐步推出立即为用户和开发者带来了更高的稳定性、更好的性能以及显著的成本削减。

GPT-3.5 在许多方面都优于 GPT-3,但最突出的两点是与用户意图更加一致,以及对有毒或偏见内容有更精细的控制。GPT-3.5 不太可能冒犯或产生幻觉,整体更加稳定。

GPT-4 是 GPT 系列最新版本的期待已久且备受瞩目的完整版本发布。虽然 GPT-2 和 GPT-3 之间的跨越更大更令人印象深刻,但 GPT-3 和 GPT-4 之间的跨越更为重要、有用和显著,主要是因为 GPT-4 是一个功能强大、更稳定和更安全的模型。

GPT-4 发布前,公众对其的兴趣很高,时间是在 2023 年 3 月。自从免费研究模型公开发布以来,ChatGPT 在短短四个月内经历了三个模型版本的循环。这本身就是一个值得称赞的成就。

将 GPT-4 与早期的 ChatGPT 模型进行比较

GPT-4,作为驱动 ChatGPT 的最新版本,是一个多模态模型,这意味着这个大型语言模型(LLM)可以处理图像和提示中的文本,但其响应仅以文本形式呈现。ChatGPT-3.5 只能在提示和响应中使用文本。ChatGPT-4 还使用比以往更大的数据库上更多的计算。

图像解释是一种独特的人工智能技能,通常被称为计算机视觉或机器视觉,这是对人工智能向更具人类特质的进展的一种认可,即将视觉作为输入源之一。

借助这种技能,AI 不仅仅是分析或匹配图像,还可以像人类一样从中提取数据。例如,一个人可以查看收据并立即了解该交易的确切成本或计算适当的小费或两者兼而有之。

同样,AI 可以使用图像输入提取执行面部识别所需的数据,阅读图像中的内容,在犯罪现场的图像中找到证据,或在 X 光片中发现健康状况。

因此,一个可以使用图像作为输入的 AI 模型是一件大事。这不是早期形式的 AI 通常能够掌握的技能。即便如此,您可能会想知道为什么现在值得注意,考虑到多模态模型已经存在。毕竟,OpenAI 自己的 DALL-E 2 是多模态的,提示可以由字母数字文本、图像或两者组成。此外,DALL-E 2 输出图像。这是否意味着它使用比 ChatGPT 更好的多模态模型?

答案是否定的。DALL-E 2 使用与 ChatGPT 相同的 GPT 模型。但 GPT-4 模型通过更大的创造力、更真实的图像创建和编辑,以及更好的分辨率增强了 DALL-E 2。DALL-E 是一个图像生成器,DALL-E 2 仍然是一个图像生成器,但具有更强大的引擎。

相比之下,ChatGPT 以前是一个单模态系统,仅设计用于字母数字提示。现在 ChatGPT 使用 GPT-4 模型,已经适应为多模态,这意味着它现在可以在提示中接受图像。然而,ChatGPT 仍然是一个文本生成器,并且仍然是一个文本生成器,得益于新的 GPT-4 模型的一些令人印象深刻的升级。

这些功能升级超越了早期 AI 系统的功能。例如,GPT-4 可以解释图像,解释视觉幽默,并基于视觉输入进行推理。

扩展输入类型使模型能够执行更复杂的任务和更深入、更精细的分析。简而言之,ChatGPT-4 具有增强的问题解决能力,创造性超能力(对于 AI 模型而言),以及一个令人惊叹的庞大通用知识库。这是迄今为止最大的大型语言模型。

然而,正如前面提到的,ChatGPT-4 无法输出图像。它仅生成文本,就像早期的 ChatGPT 模型一样,但在考虑您的输入和期望方面更加深入。

选择 ChatGPT 模型

ChatGPT 为您提供选择要使用的模型的选项,如图 4-2 所示。鉴于 ChatGPT-4 无法生成图像,如果您没有任何图像要添加到提示中,您是否仍然需要 ChatGPT-4?或者您可以坚持使用早期版本并像往常一样继续吗?

图 4-2:您可以选择要在聊天中使用的 GPT 模型。

答案取决于你如何使用 ChatGPT 以及你对它的期望或需求。如果性能更重要,可靠性措施将使 GPT-4 模型遥遥领先于 GPT-3 和 GPT-3.5。例如,GPT-4 在模拟法律考试中的得分与排名前 10% 的人类并驾齐驱。相比之下,GPT-3.5 的得分与排名最后 10% 的人类相当。而且 GPT-4 在其他人类与人工智能比较测试中也表现出色。图 4-3 展示了从 OpenAI 的 GPT-4 技术报告中整理出的 GPT-4 在学术和专业考试中的得分,你可以在 https://cdn.openai.com/papers/gpt-4.pdf 找到。

图 4-3: GPT-4 在学术和专业考试中的排名。

GPT-4 表现更好是因为它接受了更好的训练。它建立在 GPT-3 的训练基础上,包括从 ChatGPT 研究模型中学到的经验教训,并通过 OpenAI 的对抗测试计划进一步与用户意图保持一致。结果是一个功能强大、更稳定、性能更高的大型语言模型,具有多模态输入能力。

多模态是人工智能研究中的一个新兴趋势。微软最近发布的 Kosmos-1 和谷歌最近增强的 PaLM 语言模型是竞争的两个多模态模型的例子。

但是,ChatGPT-4 和其他多模态模型也带来了更大和新的风险,因为它们的能力增强了,训练规模也巨大。OpenAI 已经采取了重要措施使 ChatGPT-4 更安全,但“更安全”是一个相对的术语,并不是任何人可能认为绝对安全的保证。我说这话并不是为了贬低 OpenAI 在安装重要安全措施方面的工作,而是为了确保你的期望是合理的,并且你知道要谨慎行事。

确定你对风险接受的舒适程度,然后根据需要采取任何额外步骤。预防措施应包括定期编辑和事实核查 ChatGPT 的回应。但你可能需要采取额外步骤,比如在接受或实施 ChatGPT 对法律问题或为你创建的法律文件的回应之前,咨询律师。在接受关于正确和安全治疗的医疗建议时,应咨询医生。等等。

与早期模型相比,ChatGPT-4 在推理能力和更好的监管措施方面有了显著提升,这些措施可以防止模型不必要地回避问题或大胆冒犯。这些已经足够的理由来使用新模型,即使你既没有需要也没有愿望在提示中添加图片。

但这并不意味着 ChatGPT-3.5 或 ChatGPT-3 已经过时。这些模型是了不起的技术成就,是最大的大型语言模型之一。它们在许多用例中仍然表现良好。无论是因为你在 ChatGPT-4 的等待列表上,还是因为面临 ChatGPT-4 访问的交通拥堵队列,任何一个都可能是一个不错的选择。

这些模型都不是 AI 轻量级。了解模型的差异,并根据您的需求和偏好进行选择。您的 ChatGPT 聊天记录会随着模型的更换而保留,除非您清除它,因此您不必担心如果升级会丢失之前的任何工作(受存储和令牌限制)。

然而,大多数用户将选择使用 GPT-4 或任何随后出现的新模型,无论是有意从升级中受益还是作为产品默认设置的结果。

了解 GPT-4 的进展

在 GPT-4 模型的所有进展中,就整体性能而言,最重要和相关的是可预测性。该模型产生的输出可以被 AI 人类训练者预测。可预测性并不是以前 ChatGPT 版本的强项。

能够预测输出对于确定 AI 模型的可靠性和准确性至关重要。例如,如果机器——无论是简单的计算器还是生成式人工智能模型——被提出 2+5 的问题,并且每次都解决为答案 7,那么该机器在该计算中是 100%准确和可靠的。然而,如果它一半时间回答为 7,另一半时间回答为随机数字,那么即使它一半时间回答正确,也不被认为是足够可靠的。

OpenAI 的研究人员能够准确预测 GPT-4 的一些性能,这是人工智能发展的一个重大成就。为了达到这一令人羡慕的地步,OpenAI 的研究人员花了过去两年重建他们整个深度学习堆栈,并与微软共同设计了一台超级计算机,如第二章所述。他们还使用这种方法来生产 GPT-3.5 升级,OpenAI 解释说这是 GPT-4 模型的“第一次测试运行”,以解决错误并改善其基础。

公司通过 ChatGPT 和 API 发布了 GPT-4 的文本输入功能。OpenAI 与合作伙伴 Be My Eyes 合作,通过虚拟志愿者工具帮助实现图像输入功能,Be My Eyes 使用 GPT-4 构建了该工具。这是经典谚语“一手洗另一手,两手一起洗脸”的现实实现。

作为对 ChatGPT 模型性能指标的回顾,请考虑与最先进(SOTA)模型的比较评级在图 4-4 中。

图 4-4: 比较使用 OpenAI 提供的传统基准测试的 ChatGPT 模型。

适应 GPT-4 的限制

GPT-4 也有局限性。它仍然可能产生幻觉,即提供不实际为事实的信息并相应地出现推理错误。尽管如此,幻觉事件的频率大大降低。GPT-4 在 OpenAI 内部对抗事实性评估中的得分始终比 GPT-3.5 高出 40%。

鉴于其数据截止日期为 2021 年 9 月,GPT-4 对当前事件和信息视而不见。换句话说,其数据库主要由截至该日期从互联网上抓取的数据组成,并且截至目前为止尚未更新。对于建立在 GPT-4 上的 ChatGPT-4,要考虑最新数据或互联网上不可用的数据,您必须在提示中输入该数据,使用专门的插件(如 Wolfram 或 Zapier),或使用浏览插件将 ChatGPT-4 连接到实时互联网。

GPT-4 对其答案非常自信。然而,它并不总是为了错误而再次检查其工作,因此它可能会产生幻觉(对一个明显错误的答案非常自信)。

所有 AI 模型普遍存在的风险因 GPT-4 的可扩展性增加而增加 — 这指的是数据库规模、模型参数和用户数量的庞大。然而,这些风险是已知的,OpenAI 通过增加几项安全属性和模型级干预来减轻 GPT-4 中的影响。它仍然可以被操纵以表现不佳,但 OpenAI 正在稳步努力使每一次新迭代都更难做到这一点。

OpenAI 使用 OpenAI Evals,这是用于创建和运行评估 AI 模型(如 GPT-4)基准测试的框架。OpenAI 最近开源了这个框架,以便通过更好的测试和训练进行众包和共享基准测试,从而产生更可靠的 AI 模型。

用户应该注意通过任何 ChatGPT 模型的输出进行事实核查。但这一额外步骤与在发布或投入生产之前检查自己的工作或他人的工作并没有太大不同,对吧?

截至目前,OpenAI 尚未使公众能够在提示中输入图像成为可用选项。这一功能目前正在由特定用户和开发人员进行测试。有一个 API 的开发者等待列表,以期待未来的发布日期。