ChatGPT：背后的技术ChatGPT因其卓越的对话技巧而获得了巨大的人气。它拥有广泛的能力，包括玩游戏、编写诗歌和脚

ChatGPT因其卓越的对话技巧而获得了巨大的人气。它拥有广泛的能力，包括玩游戏、编写诗歌和脚本、协助程序调试、创建网站设计，甚至生成AIGC提示的能力。人们可以在Twitter上找到几个关于其能力的例子，由Ben Tossell编撰。事实上，ChatGPT最近被一位MBA教授要求回答他们的管理问题，从而得出结论：他们不应该再布置可以带回家的家庭作业。很明显，许多人发现一旦开始使用ChatGPT，就很难停止。

改进Chatgpt的方法

与其前身GPT-3相比，ChatGPT的关键改进是它能够保留以前的对话数据，在扩展对话中为用户提供无缝体验。

ChatGPT能够承认并改正其错误。如果你发现它的回答不令人满意，你可以提示它修改其答案，并提供一个更好的解决方案。

ChatGPT有能力质疑和挑战有缺陷的假设。在GPT-3发布的早期，由于人工智能产生了听起来合理但没有现实基础的虚假内容，许多用户有负面的体验。然而，如果你问ChatGPT这样一个问题："2015年，哥伦布在美国做什么？"它就会认识到，哥伦布在那个时期并不存在。

此外，ChatGPT的培训重点是道德原则，允许它拒绝违反其预先确定的道德准则的请求或问题。尽管如此，尽管OpenAI很谨慎，但聪明的提问仍可能允许规避这些准则。

ChatGPT的训练方法

ChatGPT采用的训练方法遵循了用于大规模模型的 "预训练-微调 "的传统方法。该模型首先在一个广泛的公共数据集上进行训练，然后通过较小的数据集进行微调，以适应特定的应用领域（如类人对话），从而达到理想的性能。微调、提示和其他技术不会对模型的核心进行重大修改，但它们可以大大增强模型的实际性能。然而，GPT-3理解人类查询的能力并不是最自然的，要么需要对任务进行重组，要么需要对模型进行微调以匹配工作，从而提高效率。

ChatGPT是InstructGPT的兄弟姐妹模型，该模型于2022年1月发布。InstructGPT结合了人类对模型输出的演示，并对训练结果进行分类，使其比GPT-3更适合于遵循人类的指令。ChatGPT的创新训练方法被称为 "从人类反馈中强化学习"（RLHF）。

ChatGPT建立在GPT-3.5模型的基础上，利用文本和代码数据集进行训练，并为此利用了微软的Azure人工智能服务器。最初的GPT-3训练数据集只包含文本，所以这个较新的版本增加了理解和生成代码的能力。

为什么ChatGPT有如此大的改进？

除了拥有记忆力和与上下文持续对话的能力外，ChatGPT使用的训练方法也值得注意。2022年3月在一篇研究论文中首次提出的RLHF方法，在InstructGPT的训练过程中没有使用，尽管业界猜测。InstructGPT采用了文本-达芬奇-002模型，该模型遇到了模式崩溃等问题，即无论问什么问题，都会收敛到同一个答案。ChatGPT成功应用了RLHF方法，取得了显著的效果。然而，RLHF并不容易训练，因为它经常遇到稀疏反馈和模式崩溃等问题。该论文于3月发表，但由于需要进行大量的微调，所以直到12月才推出ChatGPT。此外，指令调谐对ChatGPT的发展做出了巨大贡献。InstructGPT的参数比GPT-3少，但它的输出却比GPT-3和使用监督学习微调的模型都要好。指令调整和提示方法有一个类似的核心，即探索语言模型的固有知识。然而，它们的不同之处在于，提示法刺激了语言模型的完成能力，而指令调整法则通过提供清晰的指令来刺激语言模型的理解能力。过去较大的模型侧重于模型本身和提示工程，而ChatGPT的迭代重点则是右侧的闭环，如下图所示。

最后，ChatGPT在提供有效答案和避免虚假信息之间取得了良好的平衡。这与Meta的Galactica模型形成了鲜明的对比，后者由于提供了太多的虚假信息，在推出三天后就被拿下了。造成这种情况的部分原因是Meta的过度宣传，使人们的期望值过高，最终导致挑剔的研究人员感到失望。然而，ChatGPT在微调和提示工程方面做得很彻底，这有助于识别自相矛盾的问题，使用户对其答案的准确性更有信心，尽管它不能完全消除虚假信息的问题。

商业战略很重要

与GPT-3根据用户的使用情况收费不同，ChatGPT目前向公众免费提供，并且无限制使用。这使得用户可以在平台上尝试各种怪异的想法。用户也被鼓励提供反馈，这对OpenAI来说是非常有价值的。尽管OpenAI并不急于创收，也不缺乏资金，但有传言称，其最新估值已达几百亿美元，微软是其主要投资者。

在人工智能的发展中，工程的重要性实际上大于科学的重要性，创造一个迭代的反馈循环是至关重要的。OpenAI非常重视商业应用，GPT-3已经拥有大量的客户。这些客户与OpenAI的互动和反馈也是进步的关键动力。相比之下，谷歌的闭门造车方式似乎已经过时了。也许这是由于缺乏商业文化或投入产出比的限制。谷歌在应用大型模型方面一直是 "克制 "的，即使起点很高。如果它继续在小规模上进行迭代，就像Waymo的自动驾驶方法一样，它最终会被更开放和数据丰富的公司所超越。

未来的改进：

RLHF是一个相对较新的方法，随着OpenAI继续探索并纳入从ChatGPT收集的用户反馈，该模型仍有进一步改进的空间。具体来说，有必要解决道德/结盟问题，并防止因规避系统的限制而产生的负面信息，这一点在过去几天里被用户发现。

此外，值得注意的是，OpenAI也有WebGPT等工具，可以理解为一个先进的网络爬虫，从互联网上提取信息来回答问题并提供相应的来源。WebGPT可以利用GPT-3本身的语义理解能力和互联网上的公共信息来生成答案，是一种很有前途的升级版搜索能力。

在《麻省理工科技评论》对OpenAI科学家的采访中，讨论了未来将ChatGPT和WebGPT的能力合并的可能性。一些互联网用户在ChatGPT内发现了一些提示，表明浏览网页的功能目前是禁用的，但未来可能会增加。将ChatGPT和WebGPT结合起来可能会产生更吸引人的结果，因为信息会实时更新，有利于更精确地评估事实的真实性。

谈到与WebGPT的结合，它与行动驱动的LLM培训流程图的左侧有关，它链接了外部信息源和工具库。网络搜索只是一种可能性；ChatGPT还可以与各种工具相结合，如不同的办公软件和SaaS软件，以提供更多样化的功能。

在产品层面，值得讨论的是更好的界面和实施方法。并排的对话框形式可以提高人们的期望，因为它需要保证对话的流畅性。Github Copilot在这方面做得很好。Copilot专门研究编程对，以伙伴的形式提出建议。用户可以接受好的建议，拒绝坏的建议。即使许多建议被拒绝，收到随机生成的有效建议的乐趣也会让人上瘾。如果ChatGPT将来成为写作、编剧或工作助手，类似Copilot的产品形式将很容易被人们接受。

总之，许多人对ChatGPT的能力感到惊奇，但真正的奇迹还在后面。OpenAI的优势不仅在于对大型模型的理解，还在于其设计和迭代接收反馈的能力，以及其在人工智能和人类目标之间的协调工作。OpenAI的首席执行官Sam Altman的话："相信指数的力量。向后看是平的，向前看是竖的"，表达了我们目前的起飞状态。