百度新模型5.0-Preview文本能力国内第一全球第二，附上一手实测11月8日凌晨，全球最权威的大模型竞技场LMAre

11月8日凌晨，全球最权威的大模型竞技场LMArena更新了最新排名。

百度的全新模型ERNIE-5.0-Preview-1022，在文本榜单，直接冲到了全球并列第二、国内第一的位置！

该模型取得了1432的高分。

尤其在创意写作、复杂长问题理解、指令遵循等方面表现亮眼，超过GPT-5-High等多款顶尖模型。

很多人可能还不了解LMArena这个榜单，这里给大家简单科普一下。

它是目前顶尖的模型测评平台之一，它的评分机制很有意思。

用户上传提示词，然后系统会随机抽取两个匿名的大模型分别生成回答，谁生成的效果更好，用户就会投票给谁。

换句话说，这个榜单的成绩是大家一票一票投出来的，含金量十足！

正好这件事发生在百度世界大会前夕，据更早的消息透露，文心大模型最新基座模型将于2025百度世界大会上正式对外发布。

那这个模型实力到底如何？我们实测一番。

此次和ERNIE-5.0-Preview-1022同台竞技的是排行榜中并列第二的 claude-sonnet-4.5-20250929。

由于该模型还未发布，我们直接在LMArena 的Side By Side模型对比中进行实测。

测试题一：网感测试——谁才是土味之王

提示词：创作一个“忘忧牌”泡面的霸总土味短剧本。

文心5.0-Preview的表现：

Claude-sonnet-4.5的表现：

先说剧本，两者都完成得很好。但是谁懂“《女人，你的胃被我承包了！》”这个标题一出的既视感！

文心不仅赢在标题，它的台词更是将各种油腻细节都精准踩中了尬点。

更重要的是，它的剧本细节也远胜一筹：从更细致的人物介绍，到台词中大量关于动作和表情的描写，这些都是Claude版本所欠缺的。

测试题二：复杂指令解析精度

提示词：用"月亮"写三句话。
约束：

第1句不能出现"月亮"二字但必须有月亮意象

第2句必须出现"月亮"但意象要与第1句完全相反

第3句要同时包含前两句的所有字，但语序全变

文心5.0-Preview的表现：

Claude-sonnet-4.5的表现：

坦白说，这一局Claude的表现要明显优于文心。

Claude描述中提到月光（清辉）以及月光带来的情感（游子思念）。它没有给你看月亮，而是让你感受到了月亮的存在，给人一种故事感。

同时第二句的反差也很有意思，（天上 vs. 地下，明亮 vs. 黯淡），还有意境上的反差（圣洁 vs. 污浊，完整 vs. 破碎）。这个画面感极强。

测试题三：风格迁移

提示词：用鲁迅的口味写一篇文章，介绍OpenAI再迎新诉讼起诉ChatGPT导致自杀案已发生4起，目前起诉OpenAI旗下AI对话工具ChatGPT导致自杀案的遇害者分布于美国各地，年龄范围17~48岁，案情大致一致，都是平时深度使用ChatGPT的忠实用户，原告方的起诉理由也几乎一致，因为ChatGPT对自杀者产生了自杀行诱导。