GPT-4和 New Bing 阅读理解大比拼:哪一个更强?

195 阅读15分钟

最近在研究Stable Diffusion(一款流行的AI图像创建工具),阅读了一篇英文文章,因为文章较为专业,有不少地方不理解,故通过GPT-4辅助阅读,不过GPT-4给出的答案不尽人意,接着又通过New Bing辅助阅读,问了同样的问题,却发现New Bing回答质量非常高。那么GPT-4和New Bing在答案差异点在哪?两者的回答为什么会有那么大的差异?

本次对比实验对象(工具)分别是GPT-4(使用了WebPilot插件,能帮助GPT-4联网的插件),Edge浏览器Bing Chat侧边栏。

本次对比实验数据是一篇英文文章:Stable Diffusion Benchmarked: Which GPU Runs AI Fastest (Updated),Stable Diffusion测试:哪种 GPU 运行 AI 速度最快(已更新)。

注:GPU指的是电脑显卡,本文章里面涉及了Nvidia、AMD和Intel厂商的显卡。

第一次提问:该文章摘要是?里面有五张条状图是什么含义,请你详细说明一下表达的含义和作者对应的观点是什么?

1.GPT-4使用了插件 WebPilot,即联网插件,故需要放上文章的链接。 2.文章中有五个条状图,我看不懂,故希望GPT-4或Bing Chat能进行通俗易懂的解释。

GPT-4WebPilot插件)

文章标题:Stable Diffusion Benchmarked: Which GPU Runs AI Fastest (Updated)

摘要: 这篇文章主要探讨了人工智能和深度学习在现代技术中的应用,特别是在图形处理单元(GPU)上的性能。文章对Stable Diffusion,一个流行的AI图像创建工具,在最新的Nvidia、AMD和Intel GPU上的性能进行了基准测试。测试结果显示,Nvidia的GPU在大多数软件中表现最佳,因为它们主要使用CUDA和其他Nvidia工具集设计。但这并不意味着其他GPU不能运行Stable Diffusion。文章还提到了不同GPU的性能差异和优化可能性。

五张条状图的含义及作者观点

  1. 第一张图:测试了不同GPU的性能,包括AMD RX 7000/6000系列、Nvidia RTX 40/30系列和Intel Arc A系列。结果显示,Nvidia的GPU性能明显优于AMD和Intel的GPU。

    作者观点:Nvidia的GPU在AI推断任务上表现出色,尤其是在使用了特定的修复后,RTX 4090的性能比RTX 3090 Ti提高了50%。

  2. 第二张图:对比了旧版GPU,特别是Nvidia的Turing架构(RTX 20- 和GTX 16-系列)和AMD的RX 5000系列的性能。

    作者观点:RTX 2080 Ti的性能超过了RTX 3070 Ti,这在游戏中是不常见的。此外,Nvidia的Ampere架构中的"sparsity"优化似乎没有被充分利用。

  3. 第三张图:展示了各种GPU的理论FP16性能,特别是使用tensor/matrix核心时的性能。

    作者观点:Nvidia的Tensor核心非常强大,但Stable Diffusion的测试结果与这些数字并不完全吻合。

  4. 第四张图:重点关注了各种GPU通过shader计算可以做到的理论FP16性能。

    作者观点:这种FP16计算的视角与Tensor和Matrix核心的图表一样,也不能更好地匹配实际性能。

  5. 第五张图:展示了更高分辨率测试的结果,特别是替换了Torch DLLs的RTX 40系列结果。

    作者观点:更复杂的目标分辨率可能更好地利用了潜在的计算资源,Tensor核心可能在更长的运行时间内充分展现其能力。

总的来说,作者认为,尽管Nvidia的GPU在Stable Diffusion性能测试中表现出色,但各种GPU的性能可能会随着软件的更新而发生巨大变化。

Edge侧边栏Bing Chat

您好,这是必应。感谢您对Stable Diffusion的兴趣。Stable Diffusion是一种基于扩散技术的深度学习文本到图像模型,能够根据文本描述生成详细的图像,也可以用于其他任务,如图像修复、扩展和转换。

文章的摘要是:

  • 作者介绍了Stable Diffusion的背景、技术和性能,以及它与其他文本到图像模型的区别和优势。
  • 作者使用了三个不同的Stable Diffusion项目来测试最新的Nvidia、AMD和Intel GPU的速度,并展示了一些生成的图像示例。
  • 作者发现Nvidia的GPU在Stable Diffusion上表现最好,尤其是RTX 40系列,而AMD和Intel的GPU则有较大的优化空间。
  • 作者还分析了各种GPU的理论计算性能,并探讨了影响Stable Diffusion性能的一些潜在因素和问题。

文章中有五张条状图,分别表示:

  • 第一张图显示了各种GPU在生成512x512分辨率的图像时每秒能处理的迭代次数(it/s)这是衡量Stable Diffusion性能的主要指标,迭代次数越多,生成速度越快。
  • 第二张图显示了各种GPU在使用张量核或矩阵核进行FP16计算时的理论性能(TFLOPS)。这是衡量GPU在深度学习任务上潜力的一个指标,理论性能越高,表示GPU有更多的计算资源。
  • 第三张图显示了各种GPU在使用着色器进行FP16计算时的理论性能(TFLOPS)。这是衡量GPU在没有使用专用硬件加速时的基准性能,理论性能越高,表示GPU有更强的通用计算能力。
  • 第四张图显示了各种GPU在生成2048x1152分辨率的图像时每秒能处理的迭代次数(it/s)。这是衡量Stable Diffusion在更高质量要求下的性能,迭代次数越多,生成速度越快。
  • 第五张图显示了各种GPU在生成2048x1152分辨率的图像时每秒能处理的迭代次数(it/s),但使用了一个叫做xformers的库来提高效率。这是衡量Stable Diffusion在使用一些优化技巧后的性能,迭代次数越多,生成速度越快。

作者对应的观点是:

  • Stable Diffusion是一个开创性和实用性兼备的文本到图像模型,它可以在普通硬件上运行,并且提供了丰富的功能和选项。
  • Nvidia的GPU在Stable Diffusion上占据了领先地位,其Tensor核和稀疏优化技术为其提供了强大的计算优势。
  • AMD和Intel的GPU在Stable Diffusion上表现不佳,主要是因为缺乏针对该模型的优化代码和支持库。
  • Stable Diffusion还有很多潜在的改进空间,随着软件项目和训练库的更新,各种GPU都有可能提升其性能和质量。

希望这些信息对您有所帮助。如果您有兴趣尝试Stable Diffusion,请访问52。如果您想了解更多关于Stable Diffusion原理和技巧,请参考34。如果您有任何其他问题,请随时与我交流。😊

我的评价

就对文章中五张条状图进行解释而言,Bing Chat完胜GPT-4,尤其给出了条状图对比项是什么?横坐标单位的含义是什么?

如第一张图Bing Chat的回答是:显示了各种GPU在生成512x512分辨率的图像时每秒能处理的迭代次数(it/s)这是衡量Stable Diffusion性能的主要指标,迭代次数越多,生成速度越快。

GPT-4回答则是:测试了不同GPU的性能,包括AMD RX 7000/6000系列、Nvidia RTX 40/30系列和Intel Arc A系列。结果显示,Nvidia的GPU性能明显优于AMD和Intel的GPU。作者观点:Nvidia的GPU在AI推断任务上表现出色,尤其是在使用了特定的修复后,RTX 4090的性能比RTX 3090 Ti提高了50%。

可以看出GPT-4的回答明显更加模糊,不具体。

下图是第一张条状图,看看你们能否理解该图表示什么意思。

于是为了更清楚地表达自己的意思(对条状图进行详细解释)让它们理解,我再次进行了提问。

第二次提问:详细描述一下第一张图和第五张图的含义,我看不懂各个横坐标和纵坐标表达的意思,此外第一和第五两者之间有什么区别?

GPT-4WebPilot插件)

当然可以,让我为您详细解释第一张图和第五张图的含义:

第一张图

  • 横坐标:这个坐标轴列出了不同的图形处理单元(GPU),包括AMD RX 7000/6000系列、Nvidia RTX 40/30系列和Intel Arc A系列。
  • 纵坐标:这个坐标轴表示的是GPU的性能,可能是某种基准测试的得分或处理速度。

含义:这张图展示了不同GPU在Stable Diffusion任务上的性能。Nvidia的GPU,尤其是RTX 4090,表现得比其他GPU好得多。图中还提到了一个名为"xformers"的库,这可能是一个加速库,因为使用它的结果通常更快。

第五张图

  • 横坐标:这个坐标轴同样列出了不同的图形处理单元(GPU),但重点可能在Nvidia的RTX 40系列。
  • 纵坐标:这个坐标轴同样表示GPU的性能,但可能是在更高的分辨率或不同的测试条件下的性能。

含义:这张图展示了在更高分辨率测试中,不同GPU的性能如何。特别是当使用替换后的Torch DLLs时,RTX 40系列的性能如何。

两图之间的区别

  1. 测试条件:第一张图可能是在标准或常规条件下进行的测试,而第五张图是在更高分辨率或不同条件下进行的测试。
  2. 重点:第一张图重点在于比较不同品牌和系列的GPU,而第五张图可能更侧重于展示Nvidia RTX 40系列在特定条件下的性能。
  3. 性能指标:两图可能使用了不同的性能指标或基准测试,这也解释了为什么需要两张不同的图来展示结果。

希望这能帮助您更好地理解这两张图的含义和它们之间的区别。如果您还有其他问题,请告诉我。

Edge侧边栏Bing Chat

好的,我很乐意为您解释一下这两张图的含义。😊

  • 第一张图显示了各种GPU在生成512x512分辨率的图像时每秒能处理的迭代次数(it/s)。迭代次数是指模型在生成图像时进行的计算步骤,迭代次数越多,表示模型能够更快地生成图像。横坐标是不同的GPU型号,**纵坐标是迭代次数。**这张图中,黑色的柱状图表示使用默认的计算模式,绿色的柱状图表示使用了一个叫做xformers的库来提高效率。从这张图可以看出,Nvidia的GPU在这个任务上表现最好,尤其是RTX 40系列,而AMD和Intel的GPU则有较大的优化空间。
  • 第五张图显示了各种GPU在生成2048x1152分辨率的图像时每秒能处理的迭代次数(it/s),但使用了xformers库来提高效率。这是衡量Stable Diffusion在使用一些优化技巧后,在更高质量要求下的性能。横坐标和纵坐标与第一张图相同。从这张图可以看出,Nvidia的GPU在这个任务上仍然占据了领先地位,而且RTX 40系列相对于RTX 30系列有更大的优势。AMD和Intel的GPU没有参与这个测试,因为我们没有找到合适的软件项目来支持它们。

两张图之间的区别主要是:

  • 第一张图使用了两种不同的计算模式,分别是默认模式和xformers模式。xformers模式可以提高速度,但可能降低精度和质量。
  • 第一张图使用了512x512分辨率作为目标,而第五张图使用了2048x1152分辨率作为目标。分辨率越高,表示生成的图像越清晰和细致,但也需要更多的计算资源和时间。
  • 第五张图只包含了Nvidia的GPU,因为我们没有找到合适的软件项目来支持AMD和Intel的GPU在这个分辨率下运行Stable Diffusion。

希望这些解释对您有所帮助。如果您想看一些生成的图像示例,请点击[这里]。如果您想尝试自己生成一些图像,请点击[这里]或[这里]。如果您还有其他问题,请随时与我交流。😊

我的评价

这次两者差距更加明显,GPT-4对图片的纵坐标解释的很模糊和不确定:“可能是某种基准测试的得分或处理速度”。而Bing Chat则是非常确定:“是迭代次数(it/s) ”此外还解释了黑色的柱状图表示使用默认的计算模式,绿色的柱状图表示使用了一个叫做xformers的库来提高效率。

这点,着实令人感到有些意外,因为我还未关注到这个细节,从上图中可以看到Nvidia(英伟达)的RTX系列显卡,有黑色和绿色之分。

关于这点,我对其再次进行了提问。

第三次提问:第一张条状图中的灰色,绿色,红色,蓝色各自表达的是什么意思?

GPT-4(WebPilot插件)

从提供的文章内容中,我们可以推断第一张条状图中各种颜色的含义如下:

  1. 灰色/黑色:这可能代表Nvidia GPU使用默认的计算模型的性能结果。这是一个没有使用额外加速库的基准性能。
  2. 绿色:这代表Nvidia GPU使用来自Facebook的"faster xformers"库的性能结果。这是一个加速库,使用它的性能结果通常更快。
  3. 红色:这可能代表AMD GPU的性能结果。文章中提到了AMD RX 7000/6000系列的性能,所以红色可能是用来表示这些GPU的。
  4. 蓝色:这代表Intel Arc A系列GPU的性能结果。

总的来说,这些颜色用于区分不同品牌和模型的GPU以及它们在不同测试条件下的性能。灰色和绿色专门用于表示Nvidia GPU在两种不同条件下的性能,而红色和蓝色则分别表示AMD和Intel的GPU性能。

Edge侧边栏Bing Chat

您好,感谢您对我们的文章感兴趣。😊

第一张条状图中的不同颜色代表了不同的GPU厂商和计算模式。具体来说:

  • 灰色的柱状图表示使用了Nvidia的GPU和默认的计算模式,这种模式可能更精确,但速度较慢。
  • 绿色的柱状图表示使用了Nvidia的GPU和xformers库,这是一个由Facebook开发的优化库,可以提高速度,但可能降低精度和质量。
  • 红色的柱状图表示使用了AMD的GPU和Shark版本,这是一个由Nod.ai开发的项目,专门针对AMD的GPU进行了优化。
  • 蓝色的柱状图表示使用了Intel的GPU和OpenVINO版本,这是一个由Intel开发的项目,利用了Intel的XMX核心。

从这张图可以看出,Nvidia的GPU在这个任务上表现最好,尤其是RTX 40系列,而AMD和Intel的GPU则有较大的优化空间。

希望这些解释对您有所帮助。如果您想看一些生成的图像示例,请点击[这里]。如果您想尝试自己生成一些图像,请点击[这里]或[这里]。如果您还有其他问题,请随时与我交流。😊

我的评价

这个问题下GPT-4和Bing Chat回答基本一致。大概是自己提问非常具体,不存在歧义的问题。

总结

第一:就阅读文献的场景下,我认为GPT-4(WebPilot插件)略差于Edge侧边栏Bing Chat,尤其文献中图片越多,这个差距会更加明显。

第二:是在相同文献下,GPT-4(WebPilot插件)相比较Edge侧边栏Bing Chat,对问题(Prompt)的要求更加严格。

究其原因:我认为Edge侧边栏Bing Chat毕竟是官方出品,能拿到GPT-4的深层/核心技术,并在此基础上进行微调,形成阅读文献的工具。

注:Edge侧边栏Bing Chat底层模型依旧是GPT-4。

而GPT-4(WebPilot插件),则需要借用第三方的插件WebPilot,GPT-4本身使用的场景主要还是沟通聊天,使用场景非常广泛,不像Bing Chat较为单一,主要使用场景就是阅读文献。另外,就是插件是第三方的,是无法拿到GPT-4核心技术,只能在表层修修补补。

对了,就在当地时间22日(昨天):OpenAI 在官网宣布,推出 GPT-3.5Turbo 微调功能并更新 API,使企业、开发人员可以使用自己的数据,结合业务用例构建专属 ChatGPT。GPT-4 的微调功能将于今年秋天推出。从这方面讲:官方GPT-4(WebPilot插件)的阅读文献能力在今年秋天会迎来大升级。

当然,若你将文献复制粘贴至GPT-4(就较短,仅文本而言),我认为GPT-4阅读文献理解能力与New Bing不相上下的。

不过,就实用而言,Edge侧边栏Bing Chat只需科学上网即可,而GPT-4(WebPilot插件)还需20美元/月。

所以,就阅读文献而言,Edge侧边栏Bing Chat无可厚非是Number one。