几道简单的计算题竟难倒了一众AI？国内热门AI计算能力的简单对比

2025-02-10 2,394 阅读5分钟

前言

近来，DeepSeek 横空出世，迅速成为 AI 领域的焦点。它以最低成本完成训练，却展现出碾压众多 AI 的卓越实力，其计算能力与逻辑思维更是出类拔萃。这不禁让人好奇，国内其他热门 AI 在计算能力方面究竟处于何种水平？为了一探究竟，本文通过几道难度各异的数学题，对国内几款热门 AI 展开了一次简单测试。

需要强调的是，由于各个大模型的训练方向和侧重点存在差异，且本次测试选用的题目数量有限，测试结果存在一定的偶然性，因此并不能完全代表各个 AI 的真实实力和最终水平。

题目及解析

1. 连锁店问题

某公司在10个省有123家连锁店，每个省的连锁店数量不等，数量由多到少排名第5的省有12家连锁店，那么连锁店数量最多的省至少有几家连锁店？

问题是数量最多的省至少有几家店，已知排名第5的省有12家连锁店，则排名后五名理想情况是11、10、9、8、7，因此排名前四家店还剩66家店可分配，66÷4=16.5，则刚好可以按15、16、17、18来分配。最终答案是18家。

2. 参加考试问题

某高校对一些学生进行问卷调查，在接受调查的学生中，准备参加注册会计师考试的有63人，准备参加英语六级考试的有89人，准备参加计算机考试的有47人，三种考试都准备参加的有24人，准备选择两种考试参加的有46人，不参加其中任何一种考试的有15人。问接受调查的学生共有多少人？

这个问题明显只需求出只参加1种考试的人数即可，我们不用看科目，只需看试卷数量即可。63+89+47=199，则共有199份试卷，已知有24人用了3张试卷，有46人用了2张试卷，199-24×3-46×2=35，还差35份试卷没人用，则只参加1种考试的有35人，24+46+35+15=120，最终答案是120人。

3. 炸弹爆炸概率问题

现有一个炸弹，启动后，其第一秒爆炸的概率是 1%；若第一秒未爆炸，则第二秒爆炸的概率为 2%；若前面未爆炸，则第三秒爆炸的概率为 3% ...... 若前面未爆炸，则第100秒爆炸的概率为100%。问启动后，炸弹最有可能在第几秒爆炸？

这个问题是一道较为简单的条件概率问题，难点在于计算上，但计算可能是AI最擅长的领域了。

计算可得第一秒爆炸的概率是1%，第二秒爆炸的概率是(1-1%)*2%=1.98% ...... 经过计算，第10秒时概率会达到峰值，因此最终答案是10秒。

4. 车站等车问题

你正在车站等一趟公交车，此公交车平均15分钟会发出1班，但车辆的实际到站的间隔有长有短，完全随机。则你等车时间的数学期望是多少？

这是一道经典的公交车悖论，很多人乍一看就觉得答案应该是7.5分钟。但实际上，当车辆间隔有长有短时，你会有更大的概率在等一辆间隔更长的车，因此，实际等车时间肯定是要大于7.5分钟的。

经过Python模拟，等车时间的数学期望为15分钟，与公交车平均发车时间相同。

AI解答

1. 文心一言

第一题正确！屏幕截图 2025-02-09 221538.png

第二题错误。屏幕截图 2025-02-09 221519.png

第三题正确！

第四题错误。

四道题对了两道，可以看出逻辑稍微复杂一些的题目，文心一言做起来就有些吃力了。

2. 通义千问

第一题正确！

第二题错误。

第三题正确！

第四题错误。

与文心一言相同的正确率，这两个AI算是国内较早推出的一批了，两者的计算能力也是非常接近。

3. 豆包

第一题正确！

第二题错误。

第三题错误。

第四题错误。

四题仅对了一题，但毕竟是偏生活类的AI，做题不行无可厚非。

4. DeepSeek

第一题正确！

第二题正确！

第三题正确！

第四题正确！！！

不愧是号称脚踢OpenAI的国内顶级AI，在数学计算上表现突出！

总结

大模型	正确率
文心一言	50%
通义千问	50%
豆包	25%
DeepSeek	100%

从测试结果来看，不同 AI 的表现各有千秋。DeepSeek 以 100% 的正确率断档领先，充分展现了其强大的计算能力和逻辑能力。人家能一夜之间火起来也是有原因的。

后言

在半年前最简单的第一道题目各个AI的回答还都是错误的，测了几题就没想往下测了...

屏幕截图 2025-02-09 221626.png

但这也说明AI也一直都在进步，我相信未来随着 AI 技术的不断发展和优化，各模型的能力必将持续提升，相信它们在更多领域将展现出更为出色的表现，为人们带来更多的便利和惊喜。

彩蛋

因为我豆包用的较多，第二题错误的时候，我不死心的让它验算一下，结果你给我整这出？

我勒个 105+15=167 啊，就嘴硬是吧。

测试DeepSeek时一直服务器繁忙。让我想起了公司里的大牛，技术厉害的确实经常繁忙...