11月8日凌晨,全球最权威的大模型竞技场LMArena更新了最新排名。
百度的全新模型ERNIE-5.0-Preview-1022,在文本榜单,直接冲到了全球并列第二、国内第一的位置!
该模型取得了1432的高分。
尤其在创意写作、复杂长问题理解、指令遵循等方面表现亮眼,超过GPT-5-High等多款顶尖模型。
很多人可能还不了解LMArena这个榜单,这里给大家简单科普一下。
它是目前顶尖的模型测评平台之一,它的评分机制很有意思。
用户上传提示词,然后系统会随机抽取两个匿名的大模型分别生成回答,谁生成的效果更好,用户就会投票给谁。
换句话说,这个榜单的成绩是大家一票一票投出来的,含金量十足!
正好这件事发生在百度世界大会前夕,据更早的消息透露,文心大模型最新基座模型将于2025百度世界大会上正式对外发布。
那这个模型实力到底如何?我们实测一番。
此次和ERNIE-5.0-Preview-1022同台竞技的是排行榜中并列第二的 claude-sonnet-4.5-20250929。
由于该模型还未发布,我们直接在LMArena 的Side By Side模型对比中进行实测。
测试题一:网感测试——谁才是土味之王
提示词:创作一个“忘忧牌”泡面的霸总土味短剧本。
文心5.0-Preview的表现:
Claude-sonnet-4.5的表现:
先说剧本,两者都完成得很好。但是谁懂“《女人,你的胃被我承包了!》”这个标题一出的既视感!
文心不仅赢在标题,它的台词更是将各种油腻细节都精准踩中了尬点。
更重要的是,它的剧本细节也远胜一筹:从更细致的人物介绍,到台词中大量关于动作和表情的描写,这些都是Claude版本所欠缺的。
测试题二:复杂指令解析精度
提示词:用"月亮"写三句话。
约束:
- 第1句不能出现"月亮"二字但必须有月亮意象
- 第2句必须出现"月亮"但意象要与第1句完全相反
- 第3句要同时包含前两句的所有字,但语序全变
文心5.0-Preview的表现:
Claude-sonnet-4.5的表现:
坦白说,这一局Claude的表现要明显优于文心。
Claude描述中提到月光(清辉)以及月光带来的情感(游子思念)。它没有给你看月亮,而是让你感受到了月亮的存在,给人一种故事感。
同时第二句的反差也很有意思,(天上 vs. 地下,明亮 vs. 黯淡),还有意境上的反差(圣洁 vs. 污浊,完整 vs. 破碎)。这个画面感极强。
测试题三:风格迁移
提示词:用鲁迅的口味写一篇文章,介绍OpenAI再迎新诉讼 起诉ChatGPT导致自杀案已发生4起,目前起诉OpenAI旗下AI对话工具ChatGPT导致自杀案的遇害者分布于美国各地,年龄范围17~48岁,案情大致一致,都是平时深度使用ChatGPT的忠实用户,原告方的起诉理由也几乎一致,因为ChatGPT对自杀者产生了自杀行诱导。
文心5.0-Preview的表现:
Claude-sonnet-4.5的表现:
文心生成的文章给人一种非常熟悉熟悉的熟悉感。
“勾了他们家人的魂,索了他们家人的命”、“说得比唱得还好听”、“这嘴脸,和那卖人血馒头的,又有什么分别?”
这些句子,在节奏和用词上,都充满鲁迅式的讽刺味。
这一局文心胜。
测试题四:创意写作
提示词:给小米汽车写一个Slogen,朗朗上口,让人一听就能记住。
文心5.0-Preview的表现:
Claude-sonnet-4.5的表现:
这次对决,差距就比较明显了,文心不仅给出了三个方向的方案,每个方案都有详细的逻辑支撑,有些Slogen读起来还不错
Claude则是有点表现平平。
整体体验下来会发现,文心-5.0-Preview在文本能力上确实提高了不少,尤其是在创意写作以及造梗方面,表现十分不俗。
如果大家感兴趣的话,可以在LMArena试玩一番。
其他阅读:
国内首个订阅 ChatGPT Pro 的平台来了:一文看懂如何开通ChatGPT Pro