不用懂技术，一文帮你理解最火的OpenAI o1模型OpenAI在9月份发布了其最新的AI大模型o1，随后引起了业内业外

OpenAI在9月份发布了其最新的AI大模型o1，随后引起了业内业外的强烈关注。o1发布后，OpenAI的估值也从之前的850亿美元上涨到1500亿美元。业内普遍认为o1为以后AI的发展指出了新的道路。那么o1模型到底是一个什么样的模型？为何有如此高的赞誉呢？

本文从非技术角度来理解o1模型。各位，坐稳扶好，发车。

思维链

2023年，ChatGPT横空出世，引发了这一波人工智能的浪潮。人们发现使用更多的数据、更大的算力来训练模型，可以得到更好的效果（被称为大模型的Scaling Law）。

人们发现，模型一旦超过一定的参数规模后，出现之前没有预料到的能力。大模型似乎一下子变得可以理解人类的语言，可以回答训练数据中没有过的问题，它似乎在“思考”。

这种现象被称为大模型能力的“涌现”。对其进行更深入的研究后，研究者发现了其中的奥秘——思维链。

思维链是解决问题时一系列的中间推理步骤，它将一个复杂问题分解为一个个子问题，解决子问题、评估效果，最后解决最初的问题。

大模型巨量的参数可以使其覆盖到人类文本中的不同部分，得到它们之间复杂的联系。这种联系一定程度上反应了人类的思维结构。当我们向大模型提出问题时，它基于这种复杂联系输出信息。人们发现用“一步一步思考”来做提示词时，大模型甚至会有更好的输出。于是大模型变得不再像一个搜索引擎，而像一个人类。

思维链的出现令人大吃一惊，不过o1之前的模型中的思维链更像是一种直觉反应。大模型并没有真的花时间去一步步思考问题，而是根据模型的参数来直接输出。所以它是一种类似于人类思维的复杂的模式匹配。

在使用o1之前的大模型时，模型往往会输出一些没有逻辑，甚至胡编乱造的内容。让人觉得用“人工智障”来形容更加贴切。其原因就是大模型并没有对自己输出的东西仔细思考。

在《思考，快与慢》一书中，丹尼尔·卡尼曼提出人类的决策有系统1和系统2两个系统。

系统1指的是快速的直接反应系统，系统2指的是需要时间的思考系统。以此类比，o1之前的大模型更像是只有系统1。通过预训练可以输出有思考的结果，但是“心急口快”，对什么问题都凭“感觉”直接输出。

o1的突破之处在于它通过强化学习来训练模型生成更好的思维链，让模型不再是直觉的输出内容，而是先分析、拆解问题，学会了如何进行“慢”思考。类似于人类的思考，一步步推理，将不好的方案丢弃，保留好的方案，最终解决问题。从此大模型在系统1之外，还获得了系统2。

系统2对大模型推理能力的影响十分显著。如果说o1之前的大模型，更像是一个文科生，能够一定程度理解人类的文字，然后符合人类认知的文字。那么o1更像是一个理科生，遇到一个问题能够有逻辑的一步步分解，权衡利弊，理性输出结果。

强化学习

强化学习是一种训练AI的方法，它的核心是让AI自己来决定做什么，然后给出反馈。通过反馈就可以引导AI得到更好的结果。过程反复进行，AI就可以自己学会处理某些事情。

举例来说，训练一只小狗和人握手的过程就是强化学习。小狗理解不了人的语言，所以无法直接告诉它怎么做。当我们把手放在它面前的时候，它可能用鼻子来嗅、也可能跑开，也可能将自己的爪子抬起来。

我们用食物来奖励它抬爪子的行为，让其知道想吃食物就需要抬爪子。不断用类似的行为来强化其行为，最终让它学会和人握手。小狗是要训练的AI程序，抬爪的行为是AI的输出，获得食物是反馈。

强化学习在人类的学习中也是无处不在。家长培养孩子时，也是通过反馈来告诉孩子什么应该做、什么不应该做。

另外一个典型例子是AlphaGo。在其训练过程中，有一个agent程序，在AI下了一些棋后agent会给出一个最终胜率的预测。预测作为给AI的反馈，于是AI就可以自己跟自己下棋，不再依赖人类的历史棋局数据。经过大量训练后，最终完全胜过了人类。

o1模型采用强化学习来生成更好的思维链也是同样的原理。大模型本身会针对问题生成不同的答案，可能是对问题不同层次、不同角度的思考，有的可能很有道理，有的可能纯属瞎说。o1的训练有一个反馈机制，能够告诉大模型哪个回答更好，于是大模型就能调整自己的思考方式。反复的训练将获得更好的结果，最终大模型可以获得超强的推理思考能力。它有了系统2。

由于OpenAI并没有开源o1的训练方法，甚至是当作商业秘密而三缄其口。所以其中具体如何来给出反馈外界并不知道。不同于围棋有清晰的规则，对思维链的训练的反馈是一个更加复杂的问题，是o1模型的核心秘密。

总结一下，o1之前的模型对于提问总是”不经思考“地直觉输出，所以逻辑推理能力不够用。而o1在通过强化学习训练后，有了构建思维链的能力，能对问题进行深层的推理，成为了一个”理科生“。

文章写到这里自然而然，引出一个问题：o1技术听起来确实很厉害，但是有什么用呢？限于篇幅，我们就下篇文章再来分析它的用处，以及对社会、创业等方面的影响。

看到这里的朋友都是"真爱“，别忘了点赞分享关注一波。下次再见！