前言
近来,DeepSeek 横空出世,迅速成为 AI 领域的焦点。它以最低成本完成训练,却展现出碾压众多 AI 的卓越实力,其计算能力与逻辑思维更是出类拔萃。这不禁让人好奇,国内其他热门 AI 在计算能力方面究竟处于何种水平?为了一探究竟,本文通过几道难度各异的数学题,对国内几款热门 AI 展开了一次简单测试。
需要强调的是,由于各个大模型的训练方向和侧重点存在差异,且本次测试选用的题目数量有限,测试结果存在一定的偶然性,因此并不能完全代表各个 AI 的真实实力和最终水平。
题目及解析
1. 连锁店问题
某公司在10个省有123家连锁店,每个省的连锁店数量不等,数量由多到少 排名第5的省有12家连锁店,那么连锁店数量最多的省至少有几家连锁店?
问题是数量最多的省至少有几家店,已知排名第5的省有12家连锁店,则排名后五名理想情况是11、10、9、8、7,因此排名前四家店还剩66家店可分配,66÷4=16.5,则刚好可以按15、16、17、18来分配。最终答案是18家。
2. 参加考试问题
某高校对一些学生进行问卷调查,在接受调查的学生中,准备参加注册会计师考试的有63人,准备参加英语六级考试的有89人,准备参加计算机考试的有47人,三种考试都准备参加的有24人,准备选择两种考试参加的有46人,不参加其中任何一种考试的有15人。问接受调查的学生共有多少人?
这个问题明显只需求出只参加1种考试的人数即可,我们不用看科目,只需看试卷数量即可。63+89+47=199,则共有199份试卷,已知有24人用了3张试卷,有46人用了2张试卷,199-24×3-46×2=35,还差35份试卷没人用,则只参加1种考试的有35人,24+46+35+15=120,最终答案是120人。
3. 炸弹爆炸概率问题
现有一个炸弹,启动后,其第一秒爆炸的概率是 1%;若第一秒未爆炸,则第二秒爆炸的概率为 2%;若前面未爆炸,则第三秒爆炸的概率为 3% ...... 若前面未爆炸,则第100秒爆炸的概率为100%。问启动后,炸弹最有可能在第几秒爆炸?
这个问题是一道较为简单的条件概率问题,难点在于计算上,但计算可能是AI最擅长的领域了。
计算可得第一秒爆炸的概率是1%,第二秒爆炸的概率是(1-1%)*2%=1.98% ...... 经过计算,第10秒时概率会达到峰值,因此最终答案是10秒。
4. 车站等车问题
你正在车站等一趟公交车,此公交车平均15分钟会发出1班,但车辆的实际到站的间隔有长有短,完全随机。则你等车时间的数学期望是多少?
这是一道经典的公交车悖论,很多人乍一看就觉得答案应该是7.5分钟。但实际上,当车辆间隔有长有短时,你会有更大的概率在等一辆间隔更长的车,因此,实际等车时间肯定是要大于7.5分钟的。
经过Python模拟,等车时间的数学期望为15分钟,与公交车平均发车时间相同。
AI解答
1. 文心一言
第一题正确!
第二题错误。
第三题正确!
第四题错误。
四道题对了两道,可以看出逻辑稍微复杂一些的题目,文心一言做起来就有些吃力了。
2. 通义千问
第一题正确!
第二题错误。
第三题正确!
第四题错误。
与文心一言相同的正确率,这两个AI算是国内较早推出的一批了,两者的计算能力也是非常接近。
3. 豆包
第一题正确!
第二题错误。
第三题错误。
第四题错误。
四题仅对了一题,但毕竟是偏生活类的AI,做题不行无可厚非。
4. DeepSeek
第一题正确!
第二题正确!
第三题正确!
第四题正确!!!
不愧是号称脚踢OpenAI的国内顶级AI,在数学计算上表现突出!
总结
| 大模型 | 正确率 |
|---|---|
| 文心一言 | 50% |
| 通义千问 | 50% |
| 豆包 | 25% |
| DeepSeek | 100% |
从测试结果来看,不同 AI 的表现各有千秋。DeepSeek 以 100% 的正确率断档领先,充分展现了其强大的计算能力和逻辑能力。人家能一夜之间火起来也是有原因的。
后言
在半年前最简单的第一道题目各个AI的回答还都是错误的,测了几题就没想往下测了...
但这也说明AI也一直都在进步,我相信未来随着 AI 技术的不断发展和优化,各模型的能力必将持续提升,相信它们在更多领域将展现出更为出色的表现,为人们带来更多的便利和惊喜。
彩蛋
因为我豆包用的较多,第二题错误的时候,我不死心的让它验算一下,结果你给我整这出?
我勒个 105+15=167 啊,就嘴硬是吧。
测试DeepSeek时一直服务器繁忙。让我想起了公司里的大牛,技术厉害的确实经常繁忙...