#AI 整活大赛,正式开擂!# 国产最强大模型开源,GLM-5.1性能逼近Claude Opus 4.6
昨天,智谱旗下的最新最强大模型GLM-5.1正式开源,目前模型权重文件已经到huggingface和modelscope(国内魔塔社区)等模型开源平台。
GLM-5.1在 SWE-Bench Pro 基准测试中,取得 58.4 的成绩,超过 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro,刷新全球最佳表现。并且在覆盖推理、编程、Agent、工具调用与浏览等 12 项代表性基准上,GLM-5.1 也展现出全面、均衡的能力结构。GLM-5.1 在通用智能、真实编程与复杂任务执行三个维度上同步增强,更适合作为通用 Agent 系统与工程生产场景的基础模型。
此次提升两大主要能力,分别是长程任务能力和工程交付能力。
GLM-5.1 长程任务(Long Horizon Task)显著提升,重点提升模型在复杂目标下的持续执行、闭环优化与工程交付能力。相较于以分钟级交互为主的模型,GLM-5.1 能在单次任务中持续、自主地工作长达 8 小时,完成从规划、执行、测试到修复和交付的完整流程。
在同等评估标准下,GLM-5.1 是少数具备 8 小时级持续工作能力的模型之一,也是中国模型中率先达到这一水平的代表。模型能力的衡量标准,正在从“单轮更聪明”进一步演进为“长程任务中能稳定工作多久、交付什么”。
这类能力并不只是更长上下文,而是要求模型在长时间执行中持续保持目标一致性,减少策略漂移、错误累积和无效试错,真正具备面向复杂工程任务的自主执行能力。
GLM-5.1 的核心突破之一,是在长程任务中形成“实验—分析—优化”的自主闭环,而不是停留在一次性代码生成层面。模型能够主动运行 benchmark、识别瓶颈、调整策略,并在多轮迭代中持续提升结果质量。
这些结果说明,GLM-5.1 已具备在复杂工程环境中自主探索、持续改进和稳定交付的能力,能够胜任系统构建、性能优化与长程 Coding Agent 等更高价值任务。
目前来说,GLM5.1绝对是全球开源最强的模型,就像我上次说的,国内包括智谱在内的模型厂商的迭代速度越来越快,距离全球最强大模型越来越近了,相信很快就可以实现超越。
昨天,智谱旗下的最新最强大模型GLM-5.1正式开源,目前模型权重文件已经到huggingface和modelscope(国内魔塔社区)等模型开源平台。
GLM-5.1在 SWE-Bench Pro 基准测试中,取得 58.4 的成绩,超过 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro,刷新全球最佳表现。并且在覆盖推理、编程、Agent、工具调用与浏览等 12 项代表性基准上,GLM-5.1 也展现出全面、均衡的能力结构。GLM-5.1 在通用智能、真实编程与复杂任务执行三个维度上同步增强,更适合作为通用 Agent 系统与工程生产场景的基础模型。
此次提升两大主要能力,分别是长程任务能力和工程交付能力。
GLM-5.1 长程任务(Long Horizon Task)显著提升,重点提升模型在复杂目标下的持续执行、闭环优化与工程交付能力。相较于以分钟级交互为主的模型,GLM-5.1 能在单次任务中持续、自主地工作长达 8 小时,完成从规划、执行、测试到修复和交付的完整流程。
在同等评估标准下,GLM-5.1 是少数具备 8 小时级持续工作能力的模型之一,也是中国模型中率先达到这一水平的代表。模型能力的衡量标准,正在从“单轮更聪明”进一步演进为“长程任务中能稳定工作多久、交付什么”。
这类能力并不只是更长上下文,而是要求模型在长时间执行中持续保持目标一致性,减少策略漂移、错误累积和无效试错,真正具备面向复杂工程任务的自主执行能力。
GLM-5.1 的核心突破之一,是在长程任务中形成“实验—分析—优化”的自主闭环,而不是停留在一次性代码生成层面。模型能够主动运行 benchmark、识别瓶颈、调整策略,并在多轮迭代中持续提升结果质量。
这些结果说明,GLM-5.1 已具备在复杂工程环境中自主探索、持续改进和稳定交付的能力,能够胜任系统构建、性能优化与长程 Coding Agent 等更高价值任务。
目前来说,GLM5.1绝对是全球开源最强的模型,就像我上次说的,国内包括智谱在内的模型厂商的迭代速度越来越快,距离全球最强大模型越来越近了,相信很快就可以实现超越。
展开
评论
点赞
![[流泪]](http://lf-web-assets.juejin.cn/obj/juejin-web/xitu_juejin_web/img/jj_emoji_6.dde0d83.png)