腾讯Hy3 AI模型的技术架构与性能解析本文介绍了腾讯开源的Hy3预览版AI模型，其采用混合专家架构，总参数2950亿但

简要概述

Hy3预览版是一个拥有2950亿总参数的混合专家模型，但仅激活210亿参数，因此运行成本低于大多数同等能力的竞品。
在SWE-bench Verified（一个测试真实GitHub问题修复的编程基准）上，其得分从53%（Hy2）跃升至74.4%，较前代提升了40%。
该模型已部署于某中心的应用生态中，包括元宝、QQ和某中心文档，某中心云上的API访问价格约为每百万输入标记0.18美元。

某中心于周四悄然发布了其迄今为止最强大的AI模型，其基准测试数据令人瞩目。Hy3预览版是该公司在完成全面基础设施重建后的首个模型，并于今日在GitHub、Hugging Face和ModelScope上开源。同时，它也在某中心云官方网站上以付费计划的形式提供。

Hy3模型拥有2950亿总参数（衡量模型潜在知识广度的指标），但任何时候仅激活210亿参数。这便是混合专家架构的优势所在——模型将每个查询路由到其“专家”子网络的特定子集，而非一次性运行所有参数。这带来了更低的计算量、更低的成本，以及大致相当的输出质量。该模型还支持高达25.6万标记的上下文长度，足以在一次提示中消化一部长篇小说。

该模型的构建旨在平衡三个方面，某中心表示不再牺牲其中任何一方：能力广度、诚实评估和成本效率。他们之前的旗舰模型Hy2拥有超过4000亿参数。某中心明确收窄了规模，认为2950亿是最佳平衡点，在此规模下，推理能力完全成熟，但增加更多参数的成本已不再划算。

这也不意味着模型性能更差。训练更优、参数更少的模型，常常能胜过规模更大的通用模型。

在编程方面，性能提升显著。SWE-bench Verified是一个测试模型能否真正修复GitHub仓库中真实Bug（非玩具问题，而是生产代码）的基准。Hy2得分为53.0%，而Hy3预览版得分74.4%。这意味着一代之间实现了40%的跃升，使其性能区间接近某机构的Claude Opus 4.6（80.8%），并超过了GLM-5（77.8%）和Kimi-K2.5（76.8%）。在Terminal-Bench 2.0（一个在真实命令行环境中衡量自主任务执行的基准）上，得分从23.2%提升至54.4%——同样是一次巨大飞跃。

然而，对于正在使用智能体进行开发的团队来说，该模型可能是一个非常有趣的选择。智能体拥有一套非常复杂的指令集，涉及记忆、技能和工具调用。它们通常会遗漏某些环节，这可能破坏工作流程或产生糟糕的结果。这就是为什么随着智能体能力成为行业最热门的领域，其对AI开发者变得越来越重要。这也是该模型立即在Openclaw上可用的原因。

搜索和浏览智能体——模型必须在没有人工引导的情况下从开放网络中检索、过滤和综合信息——也取得了显著提升。在BrowseComp（一个跟踪复杂网络研究任务的基准）上，Hy3预览版达到了67.1%（从Hy2的28.7%上升）。在WideSearch上，它达到了70.2%，优于GLM-5和Kimi-K2.5，但落后于某机构的Claude Opus 4.6的77.2%。

在推理能力上，该模型在清华大学数学博士资格考试（2026年春季）中击败了所有中国竞争对手，在三次运行的平均分（avg@3）中得分88.4。这是一个真实世界的考试，而非精心整理的数据集——某中心表示，这正是他们为规避基准操纵而优先采用的评估类型。该模型在CHSBO 2025（全国高中生物奥林匹克竞赛）中也获得了87.8分，是该类别中国模型中的最高分。

Hy3预览版于2026年1月下旬开始训练，并于周四发布——从零开始到开源发布，耗时不到三个月。这对一个前沿级别的模型来说异常迅速。某中心将其归功于由首席AI科学家领导的二月基础设施大修，他推动了预训练和强化学习技术栈的全面重建。

这与一年前中国AI实验室的做法截然不同，当时DeepSeek的R1以其成本效率震惊了业界。

Hy3仍落后于某机构和某机构的旗舰模型，但按规模与性能的比率来看，Hy3预览版难以被忽视：其智能体基准综合指标显示，它位于约2950亿参数的“最佳区域”，领先于DeepSeek-V3.2（超过6000亿参数），并以极小部分的计算成本匹敌Kimi-K2.5（超过1万亿参数）。

混元模型已部署于元宝、CodeBuddy、WorkBuddy、QQ和某中心文档中。在CodeBuddy和WorkBuddy上，首令牌延迟降低了54%，端到端生成时间减少了47%，模型成功运行了长达495步的智能体工作流。某中心云提供的API访问价格约为每百万输入标记0.18美元和每百万输出标记0.59美元，个人令牌计划套餐起价约为每月4.10美元。FINISHED