几道简单的计算题竟难倒了一众AI?国内热门AI计算能力的简单对比

1,251 阅读5分钟

前言

近来,DeepSeek 横空出世,迅速成为 AI 领域的焦点。它以最低成本完成训练,却展现出碾压众多 AI 的卓越实力,其计算能力与逻辑思维更是出类拔萃。这不禁让人好奇,国内其他热门 AI 在计算能力方面究竟处于何种水平?为了一探究竟,本文通过几道难度各异的数学题,对国内几款热门 AI 展开了一次简单测试。

需要强调的是,由于各个大模型的训练方向和侧重点存在差异,且本次测试选用的题目数量有限,测试结果存在一定的偶然性,因此并不能完全代表各个 AI 的真实实力和最终水平。

题目及解析

1. 连锁店问题

某公司在10个省有123家连锁店,每个省的连锁店数量不等,数量由多到少 排名第5的省有12家连锁店,那么连锁店数量最多的省至少有几家连锁店?

问题是数量最多的省至少有几家店,已知排名第5的省有12家连锁店,则排名后五名理想情况是11、10、9、8、7,因此排名前四家店还剩66家店可分配,66÷4=16.5,则刚好可以按15、16、17、18来分配。最终答案是18家。

2. 参加考试问题

某高校对一些学生进行问卷调查,在接受调查的学生中,准备参加注册会计师考试的有63人,准备参加英语六级考试的有89人,准备参加计算机考试的有47人,三种考试都准备参加的有24人,准备选择两种考试参加的有46人,不参加其中任何一种考试的有15人。问接受调查的学生共有多少人?

这个问题明显只需求出只参加1种考试的人数即可,我们不用看科目,只需看试卷数量即可。63+89+47=199,则共有199份试卷,已知有24人用了3张试卷,有46人用了2张试卷,199-24×3-46×2=35,还差35份试卷没人用,则只参加1种考试的有35人,24+46+35+15=120,最终答案是120人。

3. 炸弹爆炸概率问题

现有一个炸弹,启动后,其第一秒爆炸的概率是 1%;若第一秒未爆炸,则第二秒爆炸的概率为 2%;若前面未爆炸,则第三秒爆炸的概率为 3% ...... 若前面未爆炸,则第100秒爆炸的概率为100%。问启动后,炸弹最有可能在第几秒爆炸?

这个问题是一道较为简单的条件概率问题,难点在于计算上,但计算可能是AI最擅长的领域了。

计算可得第一秒爆炸的概率是1%,第二秒爆炸的概率是(1-1%)*2%=1.98% ...... 经过计算,第10秒时概率会达到峰值,因此最终答案是10秒。

4. 车站等车问题

你正在车站等一趟公交车,此公交车平均15分钟会发出1班,但车辆的实际到站的间隔有长有短,完全随机。则你等车时间的数学期望是多少?

这是一道经典的公交车悖论,很多人乍一看就觉得答案应该是7.5分钟。但实际上,当车辆间隔有长有短时,你会有更大的概率在等一辆间隔更长的车,因此,实际等车时间肯定是要大于7.5分钟的。

经过Python模拟,等车时间的数学期望为15分钟,与公交车平均发车时间相同。

AI解答

1. 文心一言

第一题正确! 屏幕截图 2025-02-09 221538.png

第二题错误。 屏幕截图 2025-02-09 221519.png

第三题正确! image.png

第四题错误。 image.png

四道题对了两道,可以看出逻辑稍微复杂一些的题目,文心一言做起来就有些吃力了。

2. 通义千问

第一题正确! image.png

第二题错误。 image.png

第三题正确! image.png

第四题错误。 image.png

与文心一言相同的正确率,这两个AI算是国内较早推出的一批了,两者的计算能力也是非常接近。

3. 豆包

第一题正确! image.png

第二题错误。 image.png

第三题错误。 image.png

第四题错误。 image.png

四题仅对了一题,但毕竟是偏生活类的AI,做题不行无可厚非。

4. DeepSeek

第一题正确! image.png

第二题正确! image.png

第三题正确! image.png

第四题正确!!! image.png

不愧是号称脚踢OpenAI的国内顶级AI,在数学计算上表现突出!

总结

大模型正确率
文心一言50%
通义千问50%
豆包25%
DeepSeek100%

从测试结果来看,不同 AI 的表现各有千秋。DeepSeek 以 100% 的正确率断档领先,充分展现了其强大的计算能力和逻辑能力。人家能一夜之间火起来也是有原因的。

后言

在半年前最简单的第一道题目各个AI的回答还都是错误的,测了几题就没想往下测了...

屏幕截图 2025-02-09 221626.png

image.png

但这也说明AI也一直都在进步,我相信未来随着 AI 技术的不断发展和优化,各模型的能力必将持续提升,相信它们在更多领域将展现出更为出色的表现,为人们带来更多的便利和惊喜。

彩蛋

因为我豆包用的较多,第二题错误的时候,我不死心的让它验算一下,结果你给我整这出?

image.png

image.png

我勒个 105+15=167 啊,就嘴硬是吧。

image.png


测试DeepSeek时一直服务器繁忙。让我想起了公司里的大牛,技术厉害的确实经常繁忙...

image.png