ChatGPT因其卓越的对话技巧而获得了巨大的人气。它拥有广泛的能力,包括玩游戏、编写诗歌和脚本、协助程序调试、创建网站设计,甚至生成AIGC提示的能力。人们可以在Twitter上找到几个关于其能力的例子,由Ben Tossell编撰。事实上,ChatGPT最近被一位MBA教授要求回答他们的管理问题,从而得出结论:他们不应该再布置可以带回家的家庭作业。很明显,许多人发现一旦开始使用ChatGPT,就很难停止。
改进Chatgpt的方法
与其前身GPT-3相比,ChatGPT的关键改进是它能够保留以前的对话数据,在扩展对话中为用户提供无缝体验。
ChatGPT能够承认并改正其错误。如果你发现它的回答不令人满意,你可以提示它修改其答案,并提供一个更好的解决方案。
ChatGPT有能力质疑和挑战有缺陷的假设。在GPT-3发布的早期,由于人工智能产生了听起来合理但没有现实基础的虚假内容,许多用户有负面的体验。然而,如果你问ChatGPT这样一个问题:"2015年,哥伦布在美国做什么?"它就会认识到,哥伦布在那个时期并不存在。
此外,ChatGPT的培训重点是道德原则,允许它拒绝违反其预先确定的道德准则的请求或问题。尽管如此,尽管OpenAI很谨慎,但聪明的提问仍可能允许规避这些准则。
ChatGPT的训练方法
ChatGPT采用的训练方法遵循了用于大规模模型的 "预训练-微调 "的传统方法。该模型首先在一个广泛的公共数据集上进行训练,然后通过较小的数据集进行微调,以适应特定的应用领域(如类人对话),从而达到理想的性能。微调、提示和其他技术不会对模型的核心进行重大修改,但它们可以大大增强模型的实际性能。然而,GPT-3理解人类查询的能力并不是最自然的,要么需要对任务进行重组,要么需要对模型进行微调以匹配工作,从而提高效率。
ChatGPT是InstructGPT的兄弟姐妹模型,该模型于2022年1月发布。InstructGPT结合了人类对模型输出的演示,并对训练结果进行分类,使其比GPT-3更适合于遵循人类的指令。ChatGPT的创新训练方法被称为 "从人类反馈中强化学习"(RLHF)。
ChatGPT建立在GPT-3.5模型的基础上,利用文本和代码数据集进行训练,并为此利用了微软的Azure人工智能服务器。最初的GPT-3训练数据集只包含文本,所以这个较新的版本增加了理解和生成代码的能力。
为什么ChatGPT有如此大的改进?
除了拥有记忆力和与上下文持续对话的能力外,ChatGPT使用的训练方法也值得注意。2022年3月在一篇研究论文中首次提出的RLHF方法,在InstructGPT的训练过程中没有使用,尽管业界猜测。InstructGPT采用了文本-达芬奇-002模型,该模型遇到了模式崩溃等问题,即无论问什么问题,都会收敛到同一个答案。ChatGPT成功应用了RLHF方法,取得了显著的效果。然而,RLHF并不容易训练,因为它经常遇到稀疏反馈和模式崩溃等问题。该论文于3月发表,但由于需要进行大量的微调,所以直到12月才推出ChatGPT。此外,指令调谐对ChatGPT的发展做出了巨大贡献。InstructGPT的参数比GPT-3少,但它的输出却比GPT-3和使用监督学习微调的模型都要好。指令调整和提示方法有一个类似的核心,即探索语言模型的固有知识。然而,它们的不同之处在于,提示法刺激了语言模型的完成能力,而指令调整法则通过提供清晰的指令来刺激语言模型的理解能力。过去较大的模型侧重于模型本身和提示工程,而ChatGPT的迭代重点则是右侧的闭环,如下图所示。
最后,ChatGPT在提供有效答案和避免虚假信息之间取得了良好的平衡。这与Meta的Galactica模型形成了鲜明的对比,后者由于提供了太多的虚假信息,在推出三天后就被拿下了。造成这种情况的部分原因是Meta的过度宣传,使人们的期望值过高,最终导致挑剔的研究人员感到失望。然而,ChatGPT在微调和提示工程方面做得很彻底,这有助于识别自相矛盾的问题,使用户对其答案的准确性更有信心,尽管它不能完全消除虚假信息的问题。
商业战略很重要
与GPT-3根据用户的使用情况收费不同,ChatGPT目前向公众免费提供,并且无限制使用。这使得用户可以在平台上尝试各种怪异的想法。用户也被鼓励提供反馈,这对OpenAI来说是非常有价值的。尽管OpenAI并不急于创收,也不缺乏资金,但有传言称,其最新估值已达几百亿美元,微软是其主要投资者。
在人工智能的发展中,工程的重要性实际上大于科学的重要性,创造一个迭代的反馈循环是至关重要的。OpenAI非常重视商业应用,GPT-3已经拥有大量的客户。这些客户与OpenAI的互动和反馈也是进步的关键动力。相比之下,谷歌的闭门造车方式似乎已经过时了。也许这是由于缺乏商业文化或投入产出比的限制。谷歌在应用大型模型方面一直是 "克制 "的,即使起点很高。如果它继续在小规模上进行迭代,就像Waymo的自动驾驶方法一样,它最终会被更开放和数据丰富的公司所超越。
未来的改进:
RLHF是一个相对较新的方法,随着OpenAI继续探索并纳入从ChatGPT收集的用户反馈,该模型仍有进一步改进的空间。具体来说,有必要解决道德/结盟问题,并防止因规避系统的限制而产生的负面信息,这一点在过去几天里被用户发现。
此外,值得注意的是,OpenAI也有WebGPT等工具,可以理解为一个先进的网络爬虫,从互联网上提取信息来回答问题并提供相应的来源。WebGPT可以利用GPT-3本身的语义理解能力和互联网上的公共信息来生成答案,是一种很有前途的升级版搜索能力。
在《麻省理工科技评论》对OpenAI科学家的采访中,讨论了未来将ChatGPT和WebGPT的能力合并的可能性。一些互联网用户在ChatGPT内发现了一些提示,表明浏览网页的功能目前是禁用的,但未来可能会增加。将ChatGPT和WebGPT结合起来可能会产生更吸引人的结果,因为信息会实时更新,有利于更精确地评估事实的真实性。
谈到与WebGPT的结合,它与行动驱动的LLM培训流程图的左侧有关,它链接了外部信息源和工具库。网络搜索只是一种可能性;ChatGPT还可以与各种工具相结合,如不同的办公软件和SaaS软件,以提供更多样化的功能。
在产品层面,值得讨论的是更好的界面和实施方法。并排的对话框形式可以提高人们的期望,因为它需要保证对话的流畅性。Github Copilot在这方面做得很好。Copilot专门研究编程对,以伙伴的形式提出建议。用户可以接受好的建议,拒绝坏的建议。即使许多建议被拒绝,收到随机生成的有效建议的乐趣也会让人上瘾。如果ChatGPT将来成为写作、编剧或工作助手,类似Copilot的产品形式将很容易被人们接受。
总之,许多人对ChatGPT的能力感到惊奇,但真正的奇迹还在后面。OpenAI的优势不仅在于对大型模型的理解,还在于其设计和迭代接收反馈的能力,以及其在人工智能和人类目标之间的协调工作。OpenAI的首席执行官Sam Altman的话:"相信指数的力量。向后看是平的,向前看是竖的",表达了我们目前的起飞状态。