9.11比9.9大?大模型变笨了?

96 阅读2分钟

前言

最近大模型又火了一把,不过这次不是又突破什么了,而是大家觉得大模型变“笨”了。那就是多家大模型认为9.11比9.9大。

比如:

  • chatgpt-4o

直接就回答错误

  • 豆包 分析是对的,结论却是错的

(其他模型比如Gemini kimi 文心一言 chatglm等现已都修复)

其实,不是大模型变蠢了,而是它压根就不会数学计算。 那又为啥众多大模型对于这个简单的不能再简单的小学算术会回答错误呢?

首先,目前的大模型(LLM:large language model)只是叫做语言大模型,有2点特性

  1. 是通过大量的文本数据进行训练的,没有针对数学计算进行优化。
  2. 采用的Transformer架构,其目标就是理解语义,生成文本。

基于以上,也就是说LLM天生不是为数学计算服务的。那么为什么其他很多大模型又可以快速修复,使得大模型可以回答正确呢?我认为也有2点。

  1. 通过训练使其掌握了基本的数学计算推理能力(注意哈,我这里说的是大模型依然还是通过推理而不是真正的计算) 文心一言Gemini来看,虽然他们都回答正确,但是从回答来看,推理的过程依然和我们正常人类计算过程还是有些区别的。

  2. 通过给大模型外挂一个agent,这个agent可以理解成一个计算模块。大模型识别到需要计算的时候,就调用agent,然后大模型整合后回复。

最后,我想说的是要让AI真正掌握数学计算,生成音视频等还是有很长的路要走,虽然SORA让我们惊艳不已。但依然没有完全理解这个世界的物理规则。实现AGI是终极目标!