【非线智能测评】百度 ERNIE-5.1 抢先实测:Coding能力进步明显

0 阅读8分钟

百度文心在 ERNIE-5.0 之后,推出了最新迭代版本 ernie-5.1。官方将其定位为一款在 Agent、推理、世界知识与创意写作方向进一步强化的新一代旗舰模型,并强调其在参数效率、预训练成本以及多阶段强化学习训练体系上的升级。我们对其正式版本 ernie-5.1 进行评测,重点观察其在准确率、响应时间、token 消耗和调用花费等关键指标上的表现。

需要说明的是,本次评测依然侧重中文场景下的综合能力考察,评测维度覆盖教育、医疗与心理健康、金融、法律与行政公务、推理与数学计算、语言与指令遵从、Agent 与工具调用以及 coding 等。

ernie-5.1 版本表现:

  • 测试题数:约 1.5 万

  • 总分(准确率):68.2%

  • 平均耗时(每次调用):50s

  • 平均 token(每次调用消耗的 token):2014

  • 平均花费(每千次调用的人民币花费):32.6

1、新旧对决

对比上一代版本(ERNIE-5.0),ernie-5.1 这次升级并不是那种“跃升式换代”,更像是一次围绕 Agent、知识、coding 与整体效价比的定向优化。数据上看,提升是真实存在的,但它并非全面碾压,而是有取有舍。

引自非线智能(GitHub 第一 AI 商业测评) - 【非线智能测评】百度 ERNIE-5.1 抢先实测:Coding能力进步明显引自非线智能(GitHub 第一 AI 商业测评) - 【非线智能测评】百度 ERNIE-5.1 抢先实测:Coding能力进步明显

*数据来源:非线智能ReLE评测github.com/jeinlee1991…

*输出价格单位: 元/百万token

  • 整体性能小幅上扬:新版本总分从 67.2% 提升至 68.2%,提升了 1.0 个百分点,排名从第 30 位上升至第 26 位。这个进步幅度不算夸张,但在头部模型密集竞争的区间里,能够稳步前移,说明 ernie-5.1 的综合能力确实有一定增强。

  • 响应效率显著改善:平均耗时从 225s 大幅缩短至 50s,下降约 78%。这几乎是本次迭代最直观的升级点之一。对于真实业务调用来说,50 秒和 225 秒的体感差异是非常大的,说明新版本在推理链路和工程实现上做了明显优化。

  • token 消耗明显下降:平均 token 从 3897 降至 2014,下降约 48.3%。在准确率略有提升的同时,输出长度和推理冗余都被压缩下来,模型回答更“收敛”了,也更利于控制调用成本。

  • 调用花费显著下降:平均花费从 89.2 元降至 32.6 元,下降约 63.5%。

  • 教育能力提升较明显:教育维度从 55.7 提升至 60.7,提升了 5.0 分,说明模型在常识、学科知识和解释型问答等方面更稳了一些。

  • 医疗与心理健康稳步增强:从 80.3 提升至 83.3,提升 3.0 分。该项本来就是 ERNIE-5.0 的相对强项,新版继续维持在高位。

  • 金融能力有所增强:从 78.8 提升至 83.8,提升 5.0 分,属于本轮升级里比较亮眼的一项, 从中可看出,模型在规则理解、结构化信息处理和专业场景问答上做了补强。

  • coding 能力进步明显:从 48.1 提升至 57.6,提升 9.5 分,是所有细分维度中提升幅度最大的一项。

  • Agent 与工具调用小幅提升:从 61.9 提升至 63.8,提升 1.9 分。增幅不算大,但和官方对 Agent 能力强化的表述方向是一致的。

  • 部分传统维度出现回调:法律与行政公务从 81.7 降至 80.3,下降 1.4 分;推理与数学计算从 78.7 降至 77.0,下降 1.7 分;语言与指令遵从从 68.0 降至 59.1,下降 8.9 分,回调最为明显。这说明 ernie-5.1 在“更省、更快、更懂 Agent 和 coding”的方向上做了取舍,部分通用指令表达与语言稳定性没有同步拉升。

2、横向对比

在当前主流大模型竞争格局中,ernie-5.1 处于什么位置?从榜单来看,它属于中上游段位里的“务实型选手”——不是最强,但在成本、速度和综合分之间找到了一个相对均衡的位置。

引自非线智能(GitHub 第一 AI 商业测评) - 【非线智能测评】百度 ERNIE-5.1 抢先实测:Coding能力进步明显

*数据来源:非线智能ReLE评测github.com/jeinlee1991…

同成本档位对比

  • 30 元左右档位的中坚位置:ernie-5.1 总分 68.2%、平均花费 32.6 元,主要可比模型包括 Qwen3.5-122B-A10B(70.9%,32.3 元)、MiniMax-M2.7(65.1%,32.4 元)、gpt-5-2025-08-07(66.8%,31.9 元)、MiMo-V2-Omni(66.2%,34.8 元)等。放在这一成本带里,ernie-5.1 的综合分属于中上位置,不算最能打,但也有足够竞争力。

  • 速度优势非常明显:在这类可比模型中,ernie-5.1 的平均耗时 50s,显著快于 Qwen3.5-122B-A10B 的 338s,也快于 MiniMax-M2.7 的 87s 和 MiMo-V2-Omni 的 268s。对于强调在线交互体验的产品来说,这个优势是很实在的。

  • 成本效率优于上一代:如果只看百度自家产品线,ernie-5.1以更低的单次成本拿到了更高的总分,同时把耗时压到了 ERNIE-5.0 的四分之一以下,这使得它比上一代更适合作为面向真实业务的默认版本。

  • 与更高分模型相比仍有差距:榜单前列如 qwen3.6-max-preview(75.4%)、gpt-5.5(75.3%)、gemini-3.1-pro-preview(75.2%)、qwen3.5-plus(73.3%)、kimi-k2.6(72.9%)等模型仍明显领先。ernie-5.1与第一梯队之间还有约 5 至 7 个百分点的差距。

新旧模型对比

  • 代际升级幅度不算大,但方向更明确:相比 ERNIE-5.0,ernie-5.1 没有出现那种“榜单冲进前十”的跨越式变化,但通过压缩 token、压低调用成本和大幅提速,把自身产品定位从“相对昂贵且偏慢”调整为“更轻、更快、更均衡”。

  • 百度产品线内部定位更清晰:从现有数据看,ernie-5.1 更适合作为面向商用落地的主力版本,而 ERNIE-5.0 则更像前一代能力基座。两者差距虽然不算特别大,但 ernie-5.1 在工程可用性上明显更成熟。

开源 VS 闭源对比

  • 闭源商用模型里的稳健派:ernie-5.1 属于典型的闭源商用模型路径,整体分数高于部分轻量商用模型,但和最前排闭源旗舰相比仍有差距。

  • 面对开源模型的压力不小:同档位甚至更低档位上,一些开源模型已经给出更高总分,比如 qwen3.5-plus 和 DeepSeek-V4-Flash 都在成本效率比上很有竞争力。ernie-5.1 的差异化优势更多体现在百度生态、工程稳定性以及官方强调的创作与搜索融合能力上。

3、技术特性

结合百度官方介绍,ERNIE-5.1 这次并不是单纯靠“堆参数”升级,而是更强调参数效率、训练效率与后训练体系的重构。官方给出的技术信息,核心可以概括为以下几个方面:

多维度弹性预训练

文心 5.0 弹性训练示意图

官方称,ERNIE-5.1 基于 ERNIE-5.0 训练而来,通过 Once-for-All 弹性训练框架,在一次预训练中动态优化不同规模子模型,并在弹性深度、弹性宽度、弹性稀疏度三个维度上实现压缩与扩展。按照官方说法,ERNIE-5.1 将总参数量压缩至 ERNIE-5.0 的约 1/3,激活参数量压缩至约 1/2,预训练算力成本仅为业界同规模模型的 6%。

分离式全异步强化学习训练

官方表示,其围绕 RL Controller 构建了分离式全异步架构,将训练、推理、奖励和 agent loop 解耦,并重点优化了 FP8 训推一致性和资源异构弹性调度,以提升长程强化学习训练的效率、稳定性和资源利用率。

以 OPD 为核心的多阶段强化学习训练管线

文心 5.1 后训练管线示意图

官方介绍,这套流程分为统一监督微调、领域专家模型训练、在线策略蒸馏、通用在线强化学习四个阶段,核心目标是提升研发效率,并尽量避免多能力融合时出现“跷跷板”效应。

4、官方评测

按照百度官方介绍,ERNIE-5.1 的官方评测重点主要集中在 Agent、世界知识、推理和深度搜索几个方向:

文心 5.1 Benchmark

在 Agent 能力方面,官方称,ERNIE-5.1 在 τ³-bench 与 SpreadsheetBench-Verified Agent 两项评测任务中,表现超过 DeepSeek-V4-Pro,Agentic 能力接近领先闭源模型;同时,2026 年 5 月 9 日,ERNIE-5.1 以 1223 分位列 Arena 搜索榜全球第四、国内第一。

在世界知识与创意写作方面,官方表示,ERNIE-5.1 在 GPQA 和 MMLU-Pro 评测中效果接近领先闭源模型;在内部评测中,其创意写作能力接近 Gemini 3.1 Pro。

在推理能力方面,官方提到,ERNIE-5.1 在 AIME26(使用工具)中得分 99.6,仅次于 Gemini 3.1 Pro。官方同时还强调,ERNIE-5.1 在创意写作、长篇叙事和专业文本生成等场景中也有较突出表现。

非线智能官网nonelinear.com 已上线ernie-5.1,欢迎深度体验。同时,非线智能API可连接超480个全球模型,支持一键Api聚合以及Api中转,提供稳定的企业级服务。个人中心 登录github账号,领50元体验金