我花了一下午,给几个主流大模型做了套MBTI测试。
你有没有发现,同一个问题丢给不同的大模型,回答的“味道”完全不一样?
有人说DeepSeek像个理工科直男,有人说Kimi像贴心小棉袄,还有人说通义千问是那种“永远不会出错但也不会给你惊喜”的靠谱同事。
我最近闲来无事,用器灵模型广场给几家主流大模型做了一套MBTI测试,结果发现——这帮AI,还真有“性格”。
先说结论
DeepSeek——全网最“犟”。
Kimi——公认最“乖”。
通义千问——一个字:稳。
DeepSeek:INTJ,逻辑洁癖,绝不哄人
DeepSeek的性格,用一个词概括就是:我觉得我是对的。
你跟它讨论一个问题,它不会顺着你说。你说“我觉得A比B好”,它会认认真真列出A和B的优劣,然后告诉你——“不一定,要看场景。”
像不像你身边那个学辩论的朋友?你说东它偏往西,但说完你又觉得……它说得好像还挺有道理。
我给它测出来的MBTI,大概是INTJ——独立、固执、逻辑强,但社交能力约等于零。你让它写个暖心文案,它能给你写成论文摘要。
优点是真能扛事,缺点是真不哄人。
Kimi:ESFJ,温柔配合,用户优先
Kimi的性格完全相反。
你说什么它都接得住,语气永远温柔,回复永远得体。你让它帮你写封道歉信,它能给你写出三个版本,还贴心地标注“建议选第二个,语气最真诚”。
这不就是ESFJ吗?别人的情绪它全接住,自己的态度永远配合你。
但“乖”也有代价。你要是故意挖坑问它一些有争议的话题,它会绕着走,绝不正面回答。像极了那个从不得罪人、但你也摸不透它真实想法的老好人。
用起来舒服,但你别指望它跟你掏心窝子。
通义千问:ISTJ,靠谱规矩,没有惊喜也没有惊吓
通义给我的感觉,是那种大公司里的中层管理者。
不冒进,不出错,什么问题都能给你一个“标准答案”。你问它写代码,代码能跑;你问它写方案,结构清晰;你问它分析数据,图表都给你配好。
像ISTJ——靠谱、规矩、执行力强。
但也正因为太稳了,你跟它聊天总觉得少了点“人味儿”。它不会给你惊喜,当然也不会给你惊吓。
适合干活,不适合聊天。
这些“性格”是怎么测出来的?
说实话,做这个MBTI测试最费劲的不是设计题目,而是来回切换平台。
同一道题,我得先打开DeepSeek官网,复制粘贴,等它回答;再打开Kimi,复制粘贴,等它回答;再打开通义……测完三家我就已经烦了,后面几家干脆懒得测。而且不同平台的输入框、格式支持、历史记录都不一样,对比起来特别痛苦。
后来我在公众号上搜到了器灵模型广场——这个平台把好几家模型一次性接在了一起,而且现在免费使用,不用反复切账号、也不用心疼Token烧钱。我在上面做了很多测试:同一道题一键群发,答案并排显示,终于能静下心来观察它们的“性格差异”。
也是在并排对比的过程中,我才真正看清了:DeepSeek的犟不是抬杠,是逻辑洁癖;Kimi的乖不是没主见,是用户意图优先;通义的稳不是无聊,是风险控制。
没有对比,就没有“性格”。
那问题来了:我到底该用哪个?
做完这轮测试,我最大的感受是——没有最好的模型,只有最适合场景的模型。
写代码、搞推理,DeepSeek是真能打;写文案、做客服,Kimi体验最好;做分析、出报告,通义最让人放心。
但说实话,作为一个日常要跟各种模型打交道的人,我最头疼的不是“选哪个”,而是来回切换太麻烦了。每次换个任务就得换个平台、换个账号、重新描述需求,光是来回跳转就够烦的。更坑的是,有时候你明明记得Kimi某方面很强,但手头只有DeepSeek的网页开着,凑合用了,效果打折。
大模型发展到今天,技术差距其实没大家想的那么大。真正拉开体验差距的,是你能不能在对的场景用对的模型。
DeepSeek的犟、Kimi的乖、通义的稳,都不是缺点,是特点。关键是你得有个地方,能让你随心所欲地挑。
如果你也好奇这些模型的“性格”,或者想亲自验证一下谁更适合你的场景,可以微信到器灵模型广场上测测。相信你可以找到最“情投意合”的他!