OpenAI在9月份发布了其最新的AI大模型o1,随后引起了业内业外的强烈关注。o1发布后,OpenAI的估值也从之前的850亿美元上涨到1500亿美元。业内普遍认为o1为以后AI的发展指出了新的道路。那么o1模型到底是一个什么样的模型?为何有如此高的赞誉呢?
本文从非技术角度来理解o1模型。各位,坐稳扶好,发车。
思维链
2023年,ChatGPT横空出世,引发了这一波人工智能的浪潮。人们发现使用更多的数据、更大的算力来训练模型,可以得到更好的效果(被称为大模型的Scaling Law)。
人们发现,模型一旦超过一定的参数规模后,出现之前没有预料到的能力。大模型似乎一下子变得可以理解人类的语言,可以回答训练数据中没有过的问题,它似乎在“思考”。
这种现象被称为大模型能力的“涌现”。对其进行更深入的研究后,研究者发现了其中的奥秘——思维链。
思维链是解决问题时一系列的中间推理步骤,它将一个复杂问题分解为一个个子问题,解决子问题、评估效果,最后解决最初的问题。
大模型巨量的参数可以使其覆盖到人类文本中的不同部分,得到它们之间复杂的联系。这种联系一定程度上反应了人类的思维结构。当我们向大模型提出问题时,它基于这种复杂联系输出信息。人们发现用“一步一步思考”来做提示词时,大模型甚至会有更好的输出。于是大模型变得不再像一个搜索引擎,而像一个人类。
思维链的出现令人大吃一惊,不过o1之前的模型中的思维链更像是一种直觉反应。大模型并没有真的花时间去一步步思考问题,而是根据模型的参数来直接输出。所以它是一种类似于人类思维的复杂的模式匹配。
在使用o1之前的大模型时,模型往往会输出一些没有逻辑,甚至胡编乱造的内容。让人觉得用“人工智障”来形容更加贴切。其原因就是大模型并没有对自己输出的东西仔细思考。
在《思考,快与慢》一书中,丹尼尔·卡尼曼提出人类的决策有系统1和系统2两个系统。
系统1指的是快速的直接反应系统,系统2指的是需要时间的思考系统。以此类比,o1之前的大模型更像是只有系统1。通过预训练可以输出有思考的结果,但是“心急口快”,对什么问题都凭“感觉”直接输出。
o1的突破之处在于它通过强化学习来训练模型生成更好的思维链,让模型不再是直觉的输出内容,而是先分析、拆解问题,学会了如何进行“慢”思考。类似于人类的思考,一步步推理,将不好的方案丢弃,保留好的方案,最终解决问题。从此大模型在系统1之外,还获得了系统2。
系统2对大模型推理能力的影响十分显著。如果说o1之前的大模型,更像是一个文科生,能够一定程度理解人类的文字,然后符合人类认知的文字。那么o1更像是一个理科生,遇到一个问题能够有逻辑的一步步分解,权衡利弊,理性输出结果。
强化学习
强化学习是一种训练AI的方法,它的核心是让AI自己来决定做什么,然后给出反馈。通过反馈就可以引导AI得到更好的结果。过程反复进行,AI就可以自己学会处理某些事情。
举例来说,训练一只小狗和人握手的过程就是强化学习。小狗理解不了人的语言,所以无法直接告诉它怎么做。当我们把手放在它面前的时候,它可能用鼻子来嗅、也可能跑开,也可能将自己的爪子抬起来。
我们用食物来奖励它抬爪子的行为,让其知道想吃食物就需要抬爪子。不断用类似的行为来强化其行为,最终让它学会和人握手。小狗是要训练的AI程序,抬爪的行为是AI的输出,获得食物是反馈。
强化学习在人类的学习中也是无处不在。家长培养孩子时,也是通过反馈来告诉孩子什么应该做、什么不应该做。
另外一个典型例子是AlphaGo。在其训练过程中,有一个agent程序,在AI下了一些棋后agent会给出一个最终胜率的预测。预测作为给AI的反馈,于是AI就可以自己跟自己下棋,不再依赖人类的历史棋局数据。经过大量训练后,最终完全胜过了人类。
o1模型采用强化学习来生成更好的思维链也是同样的原理。大模型本身会针对问题生成不同的答案,可能是对问题不同层次、不同角度的思考,有的可能很有道理,有的可能纯属瞎说。o1的训练有一个反馈机制,能够告诉大模型哪个回答更好,于是大模型就能调整自己的思考方式。反复的训练将获得更好的结果,最终大模型可以获得超强的推理思考能力。它有了系统2。
由于OpenAI并没有开源o1的训练方法,甚至是当作商业秘密而三缄其口。所以其中具体如何来给出反馈外界并不知道。不同于围棋有清晰的规则,对思维链的训练的反馈是一个更加复杂的问题,是o1模型的核心秘密。
总结一下,o1之前的模型对于提问总是”不经思考“地直觉输出,所以逻辑推理能力不够用。而o1在通过强化学习训练后,有了构建思维链的能力,能对问题进行深层的推理,成为了一个”理科生“。
文章写到这里自然而然,引出一个问题:o1技术听起来确实很厉害,但是有什么用呢?限于篇幅,我们就下篇文章再来分析它的用处,以及对社会、创业等方面的影响。
看到这里的朋友都是"真爱“,别忘了点赞分享关注一波。下次再见!