【非线智能测评】百度 ERNIE-5.1 抢先实测：Coding能力进步明显百度文心在 ERNIE-5.0 之后，推出了

百度文心在 ERNIE-5.0 之后，推出了最新迭代版本 ernie-5.1。官方将其定位为一款在 Agent、推理、世界知识与创意写作方向进一步强化的新一代旗舰模型，并强调其在参数效率、预训练成本以及多阶段强化学习训练体系上的升级。我们对其正式版本 ernie-5.1 进行评测，重点观察其在准确率、响应时间、token 消耗和调用花费等关键指标上的表现。

需要说明的是，本次评测依然侧重中文场景下的综合能力考察，评测维度覆盖教育、医疗与心理健康、金融、法律与行政公务、推理与数学计算、语言与指令遵从、Agent 与工具调用以及 coding 等。

ernie-5.1 版本表现：

测试题数：约 1.5 万
总分（准确率）：68.2%
平均耗时（每次调用）：50s
平均 token（每次调用消耗的 token）：2014
平均花费（每千次调用的人民币花费）：32.6

1、新旧对决

对比上一代版本（ERNIE-5.0），ernie-5.1 这次升级并不是那种“跃升式换代”，更像是一次围绕 Agent、知识、coding 与整体效价比的定向优化。数据上看，提升是真实存在的，但它并非全面碾压，而是有取有舍。

引自非线智能（GitHub 第一 AI 商业测评） - 【非线智能测评】百度 ERNIE-5.1 抢先实测：Coding能力进步明显

*数据来源：非线智能ReLE评测github.com/jeinlee1991…

*输出价格单位：元/百万token

整体性能小幅上扬：新版本总分从 67.2% 提升至 68.2%，提升了 1.0 个百分点，排名从第 30 位上升至第 26 位。这个进步幅度不算夸张，但在头部模型密集竞争的区间里，能够稳步前移，说明 ernie-5.1 的综合能力确实有一定增强。
响应效率显著改善：平均耗时从 225s 大幅缩短至 50s，下降约 78%。这几乎是本次迭代最直观的升级点之一。对于真实业务调用来说，50 秒和 225 秒的体感差异是非常大的，说明新版本在推理链路和工程实现上做了明显优化。
token 消耗明显下降：平均 token 从 3897 降至 2014，下降约 48.3%。在准确率略有提升的同时，输出长度和推理冗余都被压缩下来，模型回答更“收敛”了，也更利于控制调用成本。
调用花费显著下降：平均花费从 89.2 元降至 32.6 元，下降约 63.5%。
教育能力提升较明显：教育维度从 55.7 提升至 60.7，提升了 5.0 分，说明模型在常识、学科知识和解释型问答等方面更稳了一些。
医疗与心理健康稳步增强：从 80.3 提升至 83.3，提升 3.0 分。该项本来就是 ERNIE-5.0 的相对强项，新版继续维持在高位。
金融能力有所增强：从 78.8 提升至 83.8，提升 5.0 分，属于本轮升级里比较亮眼的一项，从中可看出，模型在规则理解、结构化信息处理和专业场景问答上做了补强。
coding 能力进步明显：从 48.1 提升至 57.6，提升 9.5 分，是所有细分维度中提升幅度最大的一项。
Agent 与工具调用小幅提升：从 61.9 提升至 63.8，提升 1.9 分。增幅不算大，但和官方对 Agent 能力强化的表述方向是一致的。
部分传统维度出现回调：法律与行政公务从 81.7 降至 80.3，下降 1.4 分；推理与数学计算从 78.7 降至 77.0，下降 1.7 分；语言与指令遵从从 68.0 降至 59.1，下降 8.9 分，回调最为明显。这说明 ernie-5.1 在“更省、更快、更懂 Agent 和 coding”的方向上做了取舍，部分通用指令表达与语言稳定性没有同步拉升。

2、横向对比

在当前主流大模型竞争格局中，ernie-5.1 处于什么位置？从榜单来看，它属于中上游段位里的“务实型选手”——不是最强，但在成本、速度和综合分之间找到了一个相对均衡的位置。

引自非线智能（GitHub 第一 AI 商业测评） - 【非线智能测评】百度 ERNIE-5.1 抢先实测：Coding能力进步明显

*数据来源：非线智能ReLE评测github.com/jeinlee1991…

同成本档位对比

30 元左右档位的中坚位置：ernie-5.1 总分 68.2%、平均花费 32.6 元，主要可比模型包括 Qwen3.5-122B-A10B（70.9%，32.3 元）、MiniMax-M2.7（65.1%，32.4 元）、gpt-5-2025-08-07（66.8%，31.9 元）、MiMo-V2-Omni（66.2%，34.8 元）等。放在这一成本带里，ernie-5.1 的综合分属于中上位置，不算最能打，但也有足够竞争力。
速度优势非常明显：在这类可比模型中，ernie-5.1 的平均耗时 50s，显著快于 Qwen3.5-122B-A10B 的 338s，也快于 MiniMax-M2.7 的 87s 和 MiMo-V2-Omni 的 268s。对于强调在线交互体验的产品来说，这个优势是很实在的。
成本效率优于上一代：如果只看百度自家产品线，ernie-5.1以更低的单次成本拿到了更高的总分，同时把耗时压到了 ERNIE-5.0 的四分之一以下，这使得它比上一代更适合作为面向真实业务的默认版本。
与更高分模型相比仍有差距：榜单前列如 qwen3.6-max-preview（75.4%）、gpt-5.5（75.3%）、gemini-3.1-pro-preview（75.2%）、qwen3.5-plus（73.3%）、kimi-k2.6（72.9%）等模型仍明显领先。ernie-5.1与第一梯队之间还有约 5 至 7 个百分点的差距。

新旧模型对比

代际升级幅度不算大，但方向更明确：相比 ERNIE-5.0，ernie-5.1 没有出现那种“榜单冲进前十”的跨越式变化，但通过压缩 token、压低调用成本和大幅提速，把自身产品定位从“相对昂贵且偏慢”调整为“更轻、更快、更均衡”。
百度产品线内部定位更清晰：从现有数据看，ernie-5.1 更适合作为面向商用落地的主力版本，而 ERNIE-5.0 则更像前一代能力基座。两者差距虽然不算特别大，但 ernie-5.1 在工程可用性上明显更成熟。

开源 VS 闭源对比

闭源商用模型里的稳健派：ernie-5.1 属于典型的闭源商用模型路径，整体分数高于部分轻量商用模型，但和最前排闭源旗舰相比仍有差距。
面对开源模型的压力不小：同档位甚至更低档位上，一些开源模型已经给出更高总分，比如 qwen3.5-plus 和 DeepSeek-V4-Flash 都在成本效率比上很有竞争力。ernie-5.1 的差异化优势更多体现在百度生态、工程稳定性以及官方强调的创作与搜索融合能力上。

3、技术特性

结合百度官方介绍，ERNIE-5.1 这次并不是单纯靠“堆参数”升级，而是更强调参数效率、训练效率与后训练体系的重构。官方给出的技术信息，核心可以概括为以下几个方面：

多维度弹性预训练

文心 5.0 弹性训练示意图

官方称，ERNIE-5.1 基于 ERNIE-5.0 训练而来，通过 Once-for-All 弹性训练框架，在一次预训练中动态优化不同规模子模型，并在弹性深度、弹性宽度、弹性稀疏度三个维度上实现压缩与扩展。按照官方说法，ERNIE-5.1 将总参数量压缩至 ERNIE-5.0 的约 1/3，激活参数量压缩至约 1/2，预训练算力成本仅为业界同规模模型的 6%。

分离式全异步强化学习训练

官方表示，其围绕 RL Controller 构建了分离式全异步架构，将训练、推理、奖励和 agent loop 解耦，并重点优化了 FP8 训推一致性和资源异构弹性调度，以提升长程强化学习训练的效率、稳定性和资源利用率。

以 OPD 为核心的多阶段强化学习训练管线

文心 5.1 后训练管线示意图

官方介绍，这套流程分为统一监督微调、领域专家模型训练、在线策略蒸馏、通用在线强化学习四个阶段，核心目标是提升研发效率，并尽量避免多能力融合时出现“跷跷板”效应。

4、官方评测

按照百度官方介绍，ERNIE-5.1 的官方评测重点主要集中在 Agent、世界知识、推理和深度搜索几个方向：

文心 5.1 Benchmark

在 Agent 能力方面，官方称，ERNIE-5.1 在 τ³-bench 与 SpreadsheetBench-Verified Agent 两项评测任务中，表现超过 DeepSeek-V4-Pro，Agentic 能力接近领先闭源模型；同时，2026 年 5 月 9 日，ERNIE-5.1 以 1223 分位列 Arena 搜索榜全球第四、国内第一。

在世界知识与创意写作方面，官方表示，ERNIE-5.1 在 GPQA 和 MMLU-Pro 评测中效果接近领先闭源模型；在内部评测中，其创意写作能力接近 Gemini 3.1 Pro。

在推理能力方面，官方提到，ERNIE-5.1 在 AIME26（使用工具）中得分 99.6，仅次于 Gemini 3.1 Pro。官方同时还强调，ERNIE-5.1 在创意写作、长篇叙事和专业文本生成等场景中也有较突出表现。

非线智能官网nonelinear.com 已上线ernie-5.1，欢迎深度体验。同时，非线智能API可连接超480个全球模型，支持一键Api聚合以及Api中转，提供稳定的企业级服务。个人中心登录github账号，领50元体验金