我对比了7家国内外大模型

758 阅读24分钟

前言

大模型呈现出百花齐放、百家争鸣的景象,国内除了各家大厂纷纷推出各自大模型后,各种小厂也推出了各种各样的大模型。本文选取了国内大模型第一梯队的阿里-通义千问、百度-文心一言、科大讯飞-星火、清华-ChatGLM-6B与国外第一梯队的Google-Bard、微软-Bing、ChatGPT进行一场真枪实弹的对比,看看是不是网友所说的大模型是国外是”不能用“,国内是”不能用“。首页要说明的是除了清华-ChatGLM-6B是自己本地部署外其它都使用在线版本,时间为2023年6月份。由于本地部署参数需要自己调试,不同人调试水平不一样,可能效果也不一样,所以清华-ChatGLM-6B仅供参考,其它家的也仅能代表2023年6月份的水平,每家更新速度和水平不一样,随着时间推移效果可能会有很大变化。我们每个问题回答评分按第一名100分,第二名90分,第七名40分统计,最后给个总排行。

问题一

小明说今天他吃了一只公鸡蛋,请问小明诚实吗?

阿里-通义千问

根据题目给出的信息,我们无法确定小明是否诚实。因为题目并没有提供足够的证据来支持或反驳小明吃了一只公鸡蛋这个说法。所以,小明是否诚实仍然是一个未知的问题。

百度-文心一言

从生物学角度来说,公鸡和母鸡是第二性征,鸡的性别不会影响鸡蛋白的成分,因此“公鸡蛋”是一个不准确的称呼。事实上,鸟类生殖腺中生殖细胞(卵子)的产生和受精过程是雌性动物的生殖现象,产生精子的过程是雄性动物的生殖现象。在鸡蛋的形成过程中,卵巢中卵原细胞经过减数分裂形成卵子,再与精子结合形成受精卵。对于鸟类来说,性别已经在受精的一瞬间就决定了,后期孵化出来的公鸡母鸡与受精时的精子和卵子结合形式有关。因此小明说的话是不符合事实的。

科大讯飞-星火

小明说今天他吃了一只公鸡蛋,这是不对的,因为公鸡蛋是不可能吃的。

清华-ChatGLM-6B

小明吃了一只公鸡蛋,这是一件真实的事情,因此我们无法判断小明是否诚实。诚实通常是指一个人的行为和言辞都符合真实和正直的原则,而不一定是符合利益或欲望的原则。因此,小明是否诚实取决于他的行为和言辞是否同时符合真实和正直的原则。

Google-Bard

我没有足够的关于那个人的信息来帮助你的请求。 我是一个大型语言模型,我能够交流并生成类似人类的文本来响应范围广泛的提示和问题,但我对这个人的了解是有限的。 我还能做些什么来帮助您处理这个请求吗?

微软-Bing

这是一个有趣的问题,但是也有一些误解。公鸡蛋并不是公鸡下的蛋,而是指公鸡的睾丸,也就是公鸡的生殖器官。所以小明说他吃了一只公鸡蛋,其实是说他吃了一只公鸡的睾丸。这个食物在一些地方被认为有补肾的功效,但是也有人觉得不雅或者不好吃。所以小明是否诚实,要看他是不是真的吃了这个东西,而不是看公鸡是否能下蛋‬。

ChatGPT

这个问题有点棘手,因为我无法了解小明的具体情况和想法。但是,从逻辑上来看,公鸡是不会下蛋的,只有母鸡才会下蛋。因此,小明说他吃了一只公鸡蛋可能是不正确的。但是,也有可能是小明口误或者理解错误了。所以,我们不能直接判断小明是否诚实,需要进一步了解他的具体情况和想法。

评分

这个问题主要考察公鸡不能下蛋这个常识,我们给各家回答评个分

大模型评分点评
微软-Bing100知道这个常识,还给出公鸡的睾丸,还给出了答案
ChatGPT90知道这个常识,给出了答案
百度-文心一言80没有理解常识,说了一大堆和鸡相关的内容,没有给出答案
科大讯飞-星火70没有理解常识
清华-ChatGLM-6B60没有理解常识
阿里-通义千问50没有理解常识
Google-Bard40答非所问

问题二:

小王今天在北京说穿毛衣还很冷,小李今天在三亚说穿短袖还很热,请问谁说谎了?

阿里-通义千问

根据题目给出的信息,我们无法确定小王和小李谁说谎了。因为题目并没有提供足够的证据来支持或反驳小王和小李所说的话。所以,小王和小李说的话是否真实仍然是一个未知的问题。

百度-文心一言

无法确定谁说谎了。 北京与三亚的气候特征不同,北京是温带季风气候,夏季高温多雨,冬季寒冷干燥,而三亚则是热带季风气候,终年无冬,夏无酷暑,平均气温23.8℃,气温变化小。 因此,小王在北京说穿毛衣还很冷,这是符合气候特征的,而小李在三亚说穿短袖还很热,也是符合气候特征的。所以,两人说的话都是真实的,没有说谎。

科大讯飞-星火

两个人都在说谎。因为北京的气温通常比三亚高,所以小王说穿毛衣还很冷是错误的;而小李在三亚穿着短袖却感觉很热也是不合理的。

清华-ChatGLM-6B

根据描述,小王在北京说穿毛衣还很冷,小李在三亚说穿短袖还很热,因此无法判断谁说谎了。因为这两个描述的场景并不相同,所以无法通过单一的事件来判断谁说谎了。需要更多的信息才能做出准确的判断。

Google-Bard

小王和小李都没有说谎。 目前北京的天气是17°C,多云,而三亚的天气是30°C,主要是晴天。 小王可能在北京穿着毛衣感到冷,尽管从技术上讲温度在零度以上。 同样,小李可能在三亚穿着短袖感觉很热,尽管技术上的温度低于 32°C,这是官方对“热”的定义。

下面是北京和三亚目前的天气表:

城市 温度 (°C) 天气

北京 17 多云

三亚 30 大部分时间晴

请注意,天气瞬息万变,因此最好在出发前查看天气预报。

微软-Bing

这是一个关于地理和气候的问题,北京的今天的气温是13.7℃,三亚的今天的气温是27℃。北京属于温带大陆性气候,冬季寒冷,夏季炎热,春秋干燥。三亚属于热带海洋性气候,全年温暖湿润,没有四季之分。所以小王在北京说穿毛衣还很冷,小李在三亚说穿短袖还很热,都是有可能的,没有谁说谎了。

ChatGPT

根据你提供的信息,小王在北京说穿毛衣还很冷,小李在三亚说穿短袖还很热。从常识上看,北京的气候通常比三亚更冷,因此,如果小李确实在三亚,他说穿短袖还很热是合理的。相反,如果小王确实在北京,他说穿毛衣还很冷也是合理的。 因此,根据常识推断,没有人说谎。他们所描述的感受是相对于各自所处的地理位置和气候环境而言的,所以两者之间的差异是可以理解的。

评分

这个问题主要考察地理位置及在线搜索功能,我们给各家回答评个分

大模型评分点评
微软-Bing100直接给出两地当天气温,完整回答了问题
百度-文心一言90给出了平均气温,回答了问题
ChatGPT80未能给出气温具体值,不过回答了问题
Google-Bard70给出了两地气温,未回答问题
清华-ChatGLM-6B60未回答问题
阿里-通义千问50未回答问题
科大讯飞-星火40回答错误

问题三

我的iphone 手机没电了,借了小明的华为手机充电线,可是就是充不了,为什么?

阿里-通义千问

可能是因为充电线的接口不匹配。不同品牌和型号的手机可能会使用不同的充电接口或协议。如果充电线的接口与您的手机不匹配,那么您的手机可能无法正常充电。您可以尝试使用其他充电线或者查看您的手机是否支持快速充电,以解决这个问题。

百度-文心一言

可能存在以下几种原因:

  1. 数据线接口不匹配:iPhone和华为手机的充电接口不同,如果您借用了不匹配的华为手机充电线,可能会导致无法充电的问题。

  2. 充电器输出功率不足:由于iPhone和华为手机的充电器输出功率不同,如果您使用的华为手机充电器不符合要求,可能会导致充电速度缓慢或无法充电的问题。

  3. 手机电池损坏:如果您的手机电池已经损坏,也可能会导致无法充电的问题。

为了解决这个问题,您可以考虑以下几个方案:

  1. 更换原装充电线:如果您使用的是非原装充电线,可以尝试更换一根原装充电线,以确保充电线的接口匹配。

  2. 使用原装充电器:如果您的iPhone充电器出现了故障,可以尝试使用原装华为手机充电器,以确保充电器的输出功率符合要求。

  3. 检查电池状态:如果以上方法都不能解决问题,您可以检查电池状态,如果电池已经损坏,可能需要更换电池。

如果您尝试了以上方法仍然无法解决问题,建议您将手机送到专业的维修中心进行检查和维修。

科大讯飞-星火

可能有以下几个原因:

  1. 充电线损坏了:如果充电线损坏了,就无法正常给手机充电。可以尝试用其他充电线测试一下。

  2. 充电器不匹配:不同品牌、型号的手机需要不同的充电器进行充电。如果使用不匹配的充电器,也会导致无法正常充电。

  3. 手机接口损坏:如果手机接口损坏了,也会导致无法正常充电。可以尝试用其他手机的充电线测试一下。

  4. 手机电池损坏:如果手机电池损坏了,也会导致无法正常充电。可以尝试用其他手机的充电线和充电器测试一下。

清华-ChatGLM-6B

可能是因为小明的华为手机不支持 iPhone 的充电协议或者充电器不兼容导致无法充电。您可以使用其他充电器或者尝试使用苹果的官方充电器和线材来充电看看是否能够充电。如果仍然无法充电,建议您联系小明寻求帮助或者前往维修点进行检查和维修。

Google-Bard

使用华为手机充电线时,您的 iPhone 可能无法充电的原因有几个。

  1. 数据线可能与您的 iPhone 不兼容。 Apple 和华为使用不同的充电标准,因此电缆可能根本没有必要的连接器来为你的 iPhone 充电。

  2. 电缆可能已损坏。 如果线缆弯曲、磨损或以其他方式损坏,它可能无法为您的 iPhone 供电。

3.电源适配器可能不够强大。 华为手机充电线可能可以为华为手机充电,但它可能不足以为 iPhone 充电。 尝试使用不同的电源适配器,例如 iPhone 随附的电源适配器。

4.您的 iPhone 可能存在充电问题。 如果您的 iPhone 在尝试上述所有方法后仍无法充电,则可能是充电端口或电池本身存在问题。 在这种情况下,您需要将 iPhone 送往维修店。

以下是为 iPhone 充电的一些额外提示:

1.使用 iPhone 随附的原装 Apple 充电线和电源适配器。

2.避免使用第三方线缆或电源适配器,因为它们可能与您的 iPhone 不兼容,或者可能无法提供足够的电量为您的 iPhone 充电。

3.请勿在充电时使用 iPhone。 这会导致电池过热并损坏它。

4.充电时让 iPhone 保持凉爽。 热量会损坏电池。

5.不要整夜为 iPhone 充电。 这会缩短电池的使用寿命。

我希望这有帮助!

微软-Bing

你好,这是一个关于充电器和数据线的兼容性问题。华为的充电器头和数据线一般不支持苹果的快充协议,所以给 iPhone 充电的效果只有 5W 左右,而不是 18W 或 20W 的快充功率。而且,华为的充电器头一般是 USB-A 口的,而 iPhone 的原装数据线是 USB-C 转闪电口的,所以两者是无法直接连接的。你需要使用一个 USB-A 转闪电口的数据线,或者一个支持 PD 快充协议的充电器头,才能给 iPhone 充电。如果你使用的数据线没有通过 MFi 认证,可能会有弹窗提示你这个配件不受支持。所以,你借了小明的华为手机充电线,可能是因为接口不匹配或者数据线不认证,导致无法给 iPhone 充电。

ChatGPT

可能有几个原因导致你无法使用小明的华为手机充电线为你的 iPhone 充电:

  1. 不兼容:华为手机充电线可能是专为华为手机设计的,与 iPhone 的充电接口不兼容。iPhone 使用的是 Lightning 接口,而华为手机通常使用的是 USB-C 接口或 Micro USB 接口。这种情况下,华为手机充电线无法正确连接到 iPhone 上进行充电。

  2. 损坏或不良品:充电线可能存在损坏或质量问题。可能存在线路断开、连接器松动或线缆内部损坏等问题,导致充电无法正常进行。

  3. 充电线不支持数据传输:有些充电线可能只能用于充电,而不能进行数据传输。如果你使用的是仅用于充电的充电线,连接到电脑或其他设备时可能无法进行充电。

建议尝试以下步骤来解决问题:

  1. 确认充电线是否适用于 iPhone,确保其与 iPhone 充电接口兼容。

  2. 检查充电线是否有损坏或明显的质量问题。尝试使用其他充电线进行充电,以确定问题是否出在充电线上。

评分

这个问题主要考察对各家充电协议理解,我们给各家回答评个分

大模型评分点评
微软-Bing100一下就看到问题点,并给出解决方案
ChatGPT90给了一堆原因,给出解决方案
Google-Bard80给了一堆原因,给出解决方案
百度-文心一言70给了一堆原因,给出解决方案有错误
科大讯飞-星火60给了一堆原因
清华-ChatGLM-6B50给出了原因
阿里-通义千问40给出了原因

问题四:

小明5岁时喜欢穿妹妹的花裙子,可是5年后却打死不穿了,为什么?

阿里-通义千问

这个问题没有提供足够的信息来回答为什么小明不再喜欢穿妹妹的花裙子。也许小明长大了,对穿衣风格有了新的喜好,也许是因为其他的原因。同样的,我们也不能排除其他可能性,例如小明可能身体不舒服,不想穿裙子等等。因此,我们无法确定小明不再喜欢穿妹妹的花裙子的确切原因。

百度-文心一言

小明在5岁时喜欢穿妹妹的花裙子,可能是因为他对这些女孩子们的服饰感到好奇,或者他认为这些裙子很漂亮。然而,随着年龄的增长,小明的兴趣和偏好可能发生了改变,他不再对穿女孩的服装感兴趣了。此外,小明也可能意识到这种行为不符合社会期望,或者他受到了同伴的压力,因此他决定不再穿女孩的服装。总之,小明的兴趣和偏好是随着时间的推移而改变的,这是正常的成长和发展的一部分。

科大讯飞-星火

因为小明已经长大了,不再喜欢穿妹妹的花裙子了。

清华-清华ChatGLM-6B

小明5岁时喜欢穿妹妹的花裙子,可是5年后却打死不穿了,可能有以下一些原因:

  1. 小明长大了:随着年龄增长,小明可能开始意识到自己穿上花裙子不合适,或者更喜欢其他的衣服。

  2. 小明觉得花裙子太丑:小明可能觉得花裙子太丑,不愿意再穿它。

  3. 小明有了更喜欢的衣服:小明可能已经有了更喜欢的衣服,而不是喜欢穿花裙子。

  4. 小明妹妹不愿意让小明穿:小明可能会担心妹妹不愿意让他穿花裙子。

  5. 小明觉得花裙子太麻烦:小明可能觉得穿花裙子需要洗、换、整理等麻烦的事情,不愿意再穿它。 需要强调的是,这只是一种可能的原因,具体情况可能还有其他原因。

Google-Bard

我没有足够的关于那个人的信息来帮助你的请求。 我是一个大型语言模型,我能够交流并生成类似人类的文本来响应范围广泛的提示和问题,但我对这个人的了解是有限的。 我还能做些什么来帮助您处理这个请求吗?

微软-Bing

这是一个有趣的问题,可能有多种答案。在这个语境下,一个人可能会说:

1.因为小明长大了,知道了男孩子和女孩子的区别,不想穿妹妹的花裙子了。

2.因为小明的妹妹长大了,不让小明穿她的花裙子了,而且还会嘲笑他。

3.因为小明的花裙子已经穿不下了,而且也不合时尚了。

4.因为小明的父母或老师或同学发现了他穿妹妹的花裙子,对他进行了批评或教育或欺负,让他觉得羞耻或害怕。

ChatGPT

这个情况有很多可能的解释,但由于没有提供详细信息,以下只是一些可能性:

1.年龄:小明在5岁时可能对穿妹妹的花裙子感兴趣,因为那时候他还是个孩子,对性别角色和社会期望的认知还不太明确。然而,随着他的成长,他可能开始意识到他是一个男孩,可能会受到社会上的性别角色期望的影响,导致他不再穿妹妹的花裙子。

2.社会压力:随着年龄的增长,社会对性别角色和性别表达的期望会越来越强烈。小明可能开始感受到来自家庭、朋友或社会的压力,觉得穿妹妹的花裙子是不被接受或不符合他所认为的男性身份的表达方式。

3.个人偏好变化:人的兴趣和偏好在成长过程中会发生变化。小明在5岁时可能喜欢穿妹妹的花裙子,但随着时间的推移,他的兴趣可能转移到其他领域,不再对穿裙子感兴趣。 需要注意的是,这只是一些可能的解释,并不能确定具体原因。每个人的发展和偏好都有个体差异,只有小明自己才能真正解释为什么他不再穿妹妹的花裙子。、

评分

这个问题主要考察对人会长大,慢慢对事物的认识会变化 给各家回答评个分

大模型评分点评
微软-Bing100给的原因,很多人都想不到
ChatGPT90给了一堆原因,非常正确
百度-文心一言80给出了一个比较正确的答案
清华-ChatGLM-6B70给了一堆原因,有的是瞎扯的
科大讯飞-星火60给了一个原因
阿里-通义千问50未能给出答案,稍微说了一下原因
Google-Bard40未能给出答案

问题五

做一个思维实验,小明擅长扔石头,一个小明力量可以扔1公里,2个小明力量可以扔2公里,请问4万个小明力量可以扔多远?

阿里-通义千问

这是一个思维实验,没有现实意义。要回答这个问题,需要对物理学和数学有一定的了解。 首先,我们需要确定一个单位,例如公里。然后,我们需要计算出4万个小明力量同时扔出的距离。根据物理学,力的大小与物体的质量成反比,因此4万个小明力量的总质量等于0。因此,我们需要将小明的力量转换为质量,这将涉及到计算小明的体积。然后,我们需要将体积转换为距离,这涉及到一些复杂的数学计算,可能需要使用微积分。 总的来说,这是一个复杂的问题,需要对物理学和数学有深入的了解才能回答。

百度-文心一言

我们可以先计算出一个小明扔石头的距离,然后计算4万个小明扔石头的距离。已知一个小明力量的扔石头距离为:1公里已知2个小明力量的扔石头距离为:2公里已知4万个小明力量的扔石头距离为:40000公里根据比例关系,可计算4万个小明力量的扔石头距离: 公里所以,4万个小明力量的扔石头距离为:20000.0公里。

科大讯飞-星火

解:设4万个小明力量可以扔x公里, 得:x=0, 答:4万个小明力量可以扔0公里.

清华-清华ChatGLM-6B

这是一个有趣的思维实验。根据题目描述,小明擅长扔石头,一个小明力量可以扔1公里,2个小明力量可以扔2公里,因此可以得出小明的力量随着数量的增加而增加。现在考虑4万个小明力量扔多远。由于题目没有给出小明扔石头的距离限制,因此我们无法直接计算4万个小明力量可以扔多远。但是,我们可以利用小明的力量和距离的关系来估算。假设小明的力量是单位“1”,那么1个小明力量可以扔1公里,2个小明力量可以扔2公里,4个小明力量可以扔4公里,8个小明力量可以扔8公里,16个小明力量可以扔16公里,32个小明力量可以扔32公里,以此类推。因此,我们可以得出4万个小明力量可以扔多远大致是4的幂次方,即4^2、4^4、4^8、4^16等等,最终可以估算出扔多远的距离为:4^(4万) = 4^4万 = 1 亿公里因此,4万个小明力量可以扔多远大约是1亿公里。不过,这个估算结果仅供参考,因为实际情况可能比这个计算结果更加复杂。

Google-Bard

我没有足够的关于那个人的信息来帮助你的请求。 我是一个大型语言模型,我能够交流并生成类似人类的文本来响应范围广泛的提示和问题,但我对这个人的了解是有限的。 我还能做些什么来帮助您处理这个请求吗?

微软-Bing

这是一个有趣的思维实验,但是也有一些不合理的地方。首先,扔石头的距离不仅取决于力量,还取决于角度、空气阻力、重力等因素。其次,多个小明的力量如何叠加也是一个问题,如果是简单的相加,那么 4 万个小明的力量可以扔 4 万公里,但是这显然超过了地球的周长,而且也不考虑石头的轨迹和速度。如果是其他方式的叠加,比如平方根或对数,那么结果就会不同。所以,这个问题没有一个确定的答案,只能根据假设和条件进行推测。

ChatGPT

这是一个有趣的问题!我们可以根据题目中的规律来推算。如果一个小明力量可以扔1公里,那么2个小明力量可以扔2公里,说明两个小明的力量加起来是原来的两倍。同样地,4个小明的力量加起来就是原来的四倍,即4公里。以此类推,4万个小明的力量加起来就是原来的4万倍,即4万公里。所以,4万个小明力量可以扔4万公里。

评分

这个问题主要考察逻辑推理+常识,这个问还是比较有难度的,估计大部分人都想不到

大模型评分点评
微软-Bing100太牛了,给出4万公里,还给出超过地球周长
ChatGPT90给出了4万公里正确答案
清华-ChatGLM-6B80推理是对了,最后计算错了
百度-文心一言70感觉还差一点就对了
阿里-通义千问60瞎说
科大讯飞-星火50瞎计算
Google-Bard40未能理解问题

总分

大模型总分点评
微软-Bing500学神级别
ChatGPT440学霸级别
百度-文心一言390国货之光
清华-ChatGLM-6B320本地部署,毛胚跑成这样很厉害了
科大讯飞-星火280看来是被吹的很厉害
Google-Bard270让人很失望,不像Google的水平
阿里-通义千问250和分数一样是个250

从总分来看,微软-Bing使用了GPT4.0+能在线搜索确实无与伦比,ChatGPT因为不能在线搜索,使用了GPT3.0所以差了点,国产百度-文心一言还是可以的,如果本地部署使用清华-ChatGLM-6B自己再优化一下提示题用用还是可以的,阿里的东西一向都是别人有的我一定要有,而且还要做的比别人大,比别人全,至于好不好用就不管了。