让我们来看看,这些知名大模型是怎么中招的。
一个很简单的问题:
爱丽丝有N个兄弟,她还有M个姐妹。爱丽丝的兄弟有多少个姐妹?
百度文心
一顿操作猛如虎,一看操作...
通义千问
非常坚定的回答,没有一丝犹豫。
kimi
大哥,你是知道的,kimi的数学和代码向来不好
豆包
简单的分析了两句,得出了一个非常直观切错误的答案(泛化失败的典型例子)。
讯飞星火:
原本非常清晰的得到了正确答案,但是AI似乎对人类亲情关系的理解跟碳基生命不太一样,最后一步计算更是摸不着头脑。
智谱清言
不愧是你
质谱,国产之光!
claude 3 sonnet
曾被誉为超越GPT4的模型,在这道题面前翻车的很别致...
ChatGPT-3.5
经常被弱智吧调戏的GPT3.5模型,不出意外的回答。
ChatGPT-4o
被我寄予厚望的GPT4o居然和3.5一样轻易地翻车了,看来提速终究还是牺牲了一些性能。
ChatGPT-4
不出意外,这么简单的推理难不住目前的真神。
总结一下
面对这道可以说小学生理解无碍的题目,国内最近爆火的kimi,豆包等模型纷纷翻车,连曾经豪言壮语的claude3,如今当红的GPT-4o也难以应对,好像引发了我的一点思考,可能这些大模型的能力并没有那么强?
不,并不是大模型不强,这些帮助打工人解放双手,直呼好用的AI模型们各有各的长处,之所以这么简单的题目都回答不好,而是大模型的长处不在于此。
以我个人浅薄的理解,如果以一台电脑做类比,那么人类漫长的历史中积攒的依托互联网存储的所有语言、文学、科学等等,如果说像是存储在一台老旧的机械硬盘中,那么大语言模型的出现,就像是浓缩了这些数据放到了一个拥有器灵的内存中,让我们再也不用苦苦寻找一个一个文件,而是直接从器灵这里获取我们想要的信息。
但这不代表器灵就可以无所不能了,毕竟,这只是一个内存条,它只能存储有限的知识,在创造出真正能思考的计算单元之前,我们人类依旧需要用大自然亿万年进化出的智慧大脑,使用这个更高效的工具,推动我们的社会进步。
换句话说,AI取代人类,遥遥无期。
希望这些想法能帮助到大家减少一些AI时代的焦虑,毕竟在这个人人贩卖焦虑的时代,焦虑已经是我们最不缺少的东西了。