1.9和1.11究竟哪个大?看看各个AI都怎么说

1,745 阅读2分钟

最近一个很火的话题,1.9和1.11谁大?🤔 看起来小学生都会的题,在大模型这里,看起来遇到滑铁卢了 🤭

问题

我们在大模型分发助手平台中,进行一轮测试

image.png

我们有请GPT和国内10家大模型选手,一并看看他们的回答

AI们的回答

OpenAI - GPT

首先出场的,大模型领域的标杆选手,OpenAI的GPT

image.png

GPT-4和GPT-3.5 Turbo(llm-hub.net),结果一致,“1.11比1.9大”,显然,结果✖😮‍💨

MiniMax - Abab

第一位国内选手,MiniMax的 Abab6.5 Chat

image.png

分析过程完美,结果✅👍

百川智能 - Baichuan

接下来,百川智能的 Baichuan4

image.png

分析过程和结论都很优秀,结果✅👍

深度求索 - DeepSeek

image.png

回答也没问题,而且看起来,有点“数学思维”,像是在讲题,结果✅👍

豆包 - Doubao

然后,大名鼎鼎的抖音的豆包 Doubao Pro 32K

image.png

分析过程和结论都没问题,结果✅👍

智谱AI - GLM

继续,国内大模型的Top级,智谱AI的GLM-4

image.png

分析过程和结论,同样没问题,结果✅👍

月之暗面 - Moonshot

然后是深受大家喜爱的Kimi,月之暗面的Moonshot-V1 8K

image.png

过程和结论没问题,结果✅👍

商汤科技 - SenseChat

再来是商汤科技的SenseChat

image.png

和GPT一样,只有结论,且结论是错误的,最接近GPT的回答,结果✖😮‍💨

讯飞星火 - Spark

下面是讯飞星火的 Spark 3.5 Max

image.png

数学味道更浓了,结论也没问题,结果✅👍

阶跃星辰 - Stepfun

接下来,最近新晋选手,图像识别高手,阶跃星辰的Step-1 8K

image.png

分析起来很有道理,但是可惜是错误的,结果✖😮‍💨

零一万物 - Yi Spark

最后一位选手,零一万物的Yi Spark

image.png

不但回答了结果,还更进一步,可惜也是错误的,结果✖😮‍💨

结论

  • 作为标杆选手,GPT的结果✖
  • 国内选手中,SenseChat、Step-1 8K、Yi Spark 结果✖
  • 其他选手,MiniMax Abab6.5 Chat、Baichuan4、DeepSeek Chat、Doubao Pro 32K、GLM-4、Moonshot-V1 8K、Spark 3.5 Max的结果✅

后语

当然,这个问题,并不能真正反应大模型的能力,更多的是一种娱乐,供大家消遣

当前以GPT为代表的大模型,都是基于Transformer架构,本质上并不具备我们所认为的“逻辑”能力,尤其是这种逻辑的天花板数学能力,更多的是一种“概率”的结果。

至于很多大模型的结果都正确,应该是做了针对性的优化,或者本身训练方向,比较贴合这个问题。

最后,祝愿国内的大模型越来越好,早日超越GPT~!💪💪💪

LLM-HUB

LLM-HUB

分发你的Prompt,助你学习AIGC

https://www.llm-hub.cn | https://www.llm-hub.net