ChatGPT|推荐!微软对GPT-4分析报告

482 阅读2分钟

报告从几个方面分析GPT-4初版,并对相同的问题,对比GPT4和ChatGPT的表现,具体原文资料可以去微软官方报告查看 。

分析报告旨在探索GPT-4的边界,并没有直接夸大GPT-4多么强大,但是从报告中却能看出测试结果的确很牛逼,比如:

一、编码能力:

(1)Leetcode刷题,从数据上看,优于人类。

图片

(2)Latex写数学公式

图片

(3)使用HTML写一个3D游戏。

图片

(4)在深度学习框架中写一个自定义的优化器,这个优化器的要求还比较复杂,但模型还是能做的很好。

图片

(5)执行Python代码。给一段代码,直接让模型去“运行”。放到几年前,谁能想到一个语言模型居然能够去“跑”代码。GPT-4不仅能跑,还给出了它运行代码的详细步骤。

图片

二、数学能力

原文给出结论:

GPT-4可以回答困难的(实际上是有竞争力的)高中水平的数学问题,有时可以围绕高级数学主题进行有意义的对话。然而,它也会犯非常基本的错误,偶尔会产生不连贯的输出,这可能被解释为缺乏真正的理解,它的数学知识和能力可以以一种看似随意的方式取决于背景。原文中也给出了一些启发式对话,可以让GPT-4更聪明。

那看看有哪些例子:

(1)简单数学题

image.png

(2)有点难度的数学题

图片

(3)高等数学题

图片

(4)估算推理题

image.png

三、理解能力

GPT-4能够对他人的心理状态进行推理,并在社会环境中为实现共同目标提出合作行动。

image.png

image.png

四、引导和推理

(1)引导

图片

(2)启发

图片

(3)推理,类似一些脑筋急转弯的题,GPT-4回答的很好。

图片

图片


上面的只是GPT-4的报告一部分,可以看出GPT-4相当智能,但是GPT-4也有很多错误,比如:

图片

图片

图片

图片

由于篇幅就不过多介绍,总之GPT-4在某些方面的确很强大,但是在个性化,规划和概念性跳跃,认知谬论等方面有局限性,如果您对这篇报告更多细节感兴趣(中文版和英文版)

原文:mp.weixin.qq.com/s?__biz=MzA…