1.9和1.11究竟哪个大？看看各个AI都怎么说最近一个很火的话题，1.9和1.11谁大？🤔 看起来小学生都会的题，在

最近一个很火的话题，1.9和1.11谁大？🤔 看起来小学生都会的题，在大模型这里，看起来遇到滑铁卢了 🤭

问题

我们在大模型分发助手平台中，进行一轮测试

我们有请GPT和国内10家大模型选手，一并看看他们的回答

首先出场的，大模型领域的标杆选手，OpenAI的GPT

GPT-4和GPT-3.5 Turbo（llm-hub.net），结果一致，“1.11比1.9大”，显然，结果✖😮‍💨

第一位国内选手，MiniMax的 Abab6.5 Chat

分析过程完美，结果✅👍

接下来，百川智能的 Baichuan4

分析过程和结论都很优秀，结果✅👍

回答也没问题，而且看起来，有点“数学思维”，像是在讲题，结果✅👍

然后，大名鼎鼎的抖音的豆包 Doubao Pro 32K

分析过程和结论都没问题，结果✅👍

继续，国内大模型的Top级，智谱AI的GLM-4

分析过程和结论，同样没问题，结果✅👍

然后是深受大家喜爱的Kimi，月之暗面的Moonshot-V1 8K

过程和结论没问题，结果✅👍

再来是商汤科技的SenseChat

和GPT一样，只有结论，且结论是错误的，最接近GPT的回答，结果✖😮‍💨

下面是讯飞星火的 Spark 3.5 Max

数学味道更浓了，结论也没问题，结果✅👍

接下来，最近新晋选手，图像识别高手，阶跃星辰的Step-1 8K

分析起来很有道理，但是可惜是错误的，结果✖😮‍💨

最后一位选手，零一万物的Yi Spark

不但回答了结果，还更进一步，可惜也是错误的，结果✖😮‍💨

作为标杆选手，GPT的结果✖
国内选手中，SenseChat、Step-1 8K、Yi Spark 结果✖
其他选手，MiniMax Abab6.5 Chat、Baichuan4、DeepSeek Chat、Doubao Pro 32K、GLM-4、Moonshot-V1 8K、Spark 3.5 Max的结果✅

当然，这个问题，并不能真正反应大模型的能力，更多的是一种娱乐，供大家消遣

当前以GPT为代表的大模型，都是基于Transformer架构，本质上并不具备我们所认为的“逻辑”能力，尤其是这种逻辑的天花板数学能力，更多的是一种“概率”的结果。

至于很多大模型的结果都正确，应该是做了针对性的优化，或者本身训练方向，比较贴合这个问题。

最后，祝愿国内的大模型越来越好，早日超越GPT~！💪💪💪

LLM-HUB

分发你的Prompt，助你学习AIGC

https://www.llm-hub.cn | https://www.llm-hub.net