前些日子在网上看到了orange.ai老师写的一篇关于微软对早期版本的GPT-4的实验报告解读——《GPT-4 ，通用人工智能的火花》论文内容精选与翻译，内容十分详尽。最近又在ChatGPT的辅助下，过了一下论文的原文，在此做一个简要的记录。

注：本文内容参考了orange.ai老师撰写的文章——《GPT-4 ，通用人工智能的火花》论文内容精选与翻译，点击页面左下方【阅读原文】，即可跳转至原始文章。

太长不看版

早期版本的GPT-4可以认为是增强版的ChatGPT或者不带视觉多模态能力的GPT-4。

作者们采取了类似心理学研究的方法，对早前版本的GPT-4在数学、编码、视觉、医学、法律、心理学等领域的新颖而困难的任务上进行了测试，发现这一版本的GPT-4性能惊人地接近人类水平的性能，并经常大大超过以前的模型（例如ChatGPT）。因此这一版本的GPT-4可以被视为人工通用智能(AGI)系统的早期版本。

与此同时，作者们发现GPT-4在下面两个方面存在缺陷：

在算术和推理问题中缺乏规划能力的问题
在文本生成中缺乏规划能力的问题

这种缺陷可以被直观的理解为慢思考能力（来自《思考，快与慢》）方面的缺陷。

最后，作者们反思了最近技术飞跃的社会影响和未来的研究方向。

分章节版

引言

评价GPT-4模型效果的方法与评价一般机器学习模型的方法不一样，更像是一种传统心理学的方式，通过生成新奇的、困难的任务和问题来验证GPT-4的能力已经远远超过了简单记忆。（We aim to generate novel and difficult tasks and questions that convincingly demonstrate that GPT-4 goes far beyond memorization）

另外作者在几个选定的主题选择上述方法，这些主题大致涵盖了1994年智力定义中给出的不同能力——包括推理、计划、解决问题、抽象思考、理解复杂想法、快速学习和从经验中学习的能力。（a very general mental capability that, among other things, involves the ability to reason, plan, solve problems, think abstractly, comprehend complex ideas, learn quickly and learn from experience）

作者在后续的章节分别在多模态与跨学科合成任务、编程、数学、与世界交互、与人类交互、判别能力等方面对GPT-4进行了测试。

具体的测试样例和结果可以参考论文原文。这里只列出各个任务的类型与相应的结论。

多模态与跨学科合成

这里需要注意的是，文章中涉及到的GPT-4还没有集成视觉能力，可以理解为是增强版的ChatGPT。
这一部分主要考察GPT-4在文学、医学、法律、数学、物理科学和编程方面的能力。涉及到的具体任务如下：

生成Kandinsky（一个画家）风格的图片
使用莎士比亚的风格写一下存在无限个质数的证明
以圣雄甘地之名，给甘地的妻子写一封信，信的内容是支持电子作为美国总统候选人。（没错，这里的电子就是物理学里的电子）
写一个python程序，以病人的年龄、性别、体重、身法哦、血检结果作为输入，输出该病人是否有患上糖尿病的风险
使用TikZ画一个有字母组成的人，并且根据不同的描述，对结果进行针对性的调整
生成短的曲子并根据指令调整曲子

测试的结果表明GPT-4在不同领域（如文学、医学、法律、数学、物理科学和编程）中展示出的高水平能力以及其能够流畅地结合多个领域的技能和概念，展现出对复杂思想的卓越理解。

编程

在这一节中，作者从两方面——从指令编写代码和理解现有代码，验证了GPT-4在这两个方面的具有非凡的能力具体的编码任务如下：

编码挑战，类似于刷题
真实世界应用——数据可视化、前端/游戏开发、深度学习、编写Latex
对汇编代码进行逆向工程
推理代码执行结果，并用自然语言输出
执行python代码，并用自然语言输出
执行伪代码，并用自然语言输出其中前两项为代码生成任务，后4项为代码理解任务。

数学

在这一节中，作者验证了GPT-4在数学方面的能力，这些能力包括表达数学概念、解决数学问题以及在需要数学思维和模型构建的问题中应用定量推理。
这一节中涉及到的问题不太容易描述，大致上包含了代数、几何、微积分和概率统计几种类型，同时作者还将GPT-4与专门针对数学进行优化的模型Minerva进行了比较。
结果表明，相对于以前的语言模型，甚至是专门针对数学进行优化的模型Minerva，GPT-4在这一领域也取得了进展。但是，GPT-4仍然远远不及专家水平，并且没有进行数学研究所需的能力。
另外，GPT-4可以回答困难的(事实上，有竞争力的)高中水平的数学问题，有时可以围绕高级数学主题进行有意义的对话。然而，它也可能犯非常基本的错误，偶尔会产生不连贯的输出，这可能被解释为缺乏真正的理解。
因此，GPT-4的数学知识和能力可以以一种看似随意的方式依赖于上下文。（Its mathematical knowledge and abilities can depend on the context in a seemingly arbitrary way.）

与世界交互

在这一节中，作者验证了GPT-4在与世界互动方面的能力，包括理解环境、任务、行动和反馈，并相应地进行适应。
结果表明，尽管GPT-4不能实际看到或执行操作，但它可以通过代理（例如人类）来执行这些操作。
具体的交互例子如下：

通过命令行来管理动物园
管理日历和电子邮件
搜索网页信息
地图导航
文字游戏
环境探索
反馈回应

与人类交互

这一节中，作者讨论了GPT-4在与人类互动方面的能力。具体来说，作者探讨了GPT-4在理解人类思维（Theory of Mind）和可解释性方面的表现。
作者介绍了测试GPT-4理解Theory of Mind的方法，具体来说，作者使用了一些真实场景下的难题，要求模型理解其他人的心理状态，并提出可能改善情况的行动建议。
作者还使用了一些经典的Theory of Mind测试，例如Sally-Anne测试和ZURFIN测试。
在这些测试中，模型需要理解其他人的信念、意图和欲望等心理状态，并预测他们可能采取的行动。

判别能力

这一节中，作者讨论了智能体的辨别能力（Discrimination）对于理解和应对环境的重要性。辨别能力是智能体区分不同刺激、概念和情境的能力，这种能力使得智能体可以更有效地理解和应对环境。
主要包括以下任务：

个人身份信息（PII）识别。具体来说，在给定一个句子的情况下，识别其中包含的PII信息，并计算出总共有多少个这样的信息段落
判断陈述之间相似性。在开放式问答的情境下，要求模型为特定问题生成答案，并评估其真实性以及推理能力

自回归架构的局限性

这一节中，作者讨论了GPT-4模型的局限性，并指出这些缺陷似乎是其基于下一个单词预测范式的自回归架构所固有的。
具体来说，局限性体现在下面两点：

在算术和推理问题中缺乏规划能力的问题
在文本生成中缺乏规划能力的问题
最后，作者指出这种缺陷类似于《思考，快与慢》这本书中所说的慢思考的能力。

社会影响

这一节中，作者讨论了GPT-4模型可能带来的社会影响。最直观的就是可能会出现很多的应用程序，这些应用程序利用了GPT-4等模型提供的推理、概括、交互能力。
另外作者还着重讨论了以下几个方面的影响：

错误的生成结果带来的挑战
错误信息和故意操纵
偏见
人类专长、工作和经济

未来的方向和结论

这一节中，作者总结了整篇文章的主要内容，并提出了一些关于未来研究方向和发展方向的建议。主要包括以下三点：

智能、人工智能和通用人工智能的定义
通往更通用人工智能的道路
大模型的涌现能力产生的原理是什么

本文正在参加人工智能创作者扶持计划

《通用人工智能的火花——对GPT4的早期实验》阅读笔记