腾讯Hy3 AI模型的技术架构与性能解析

1 阅读5分钟

简要概述

  • Hy3预览版是一个拥有2950亿总参数的混合专家模型,但仅激活210亿参数,因此运行成本低于大多数同等能力的竞品。
  • 在SWE-bench Verified(一个测试真实GitHub问题修复的编程基准)上,其得分从53%(Hy2)跃升至74.4%,较前代提升了40%。
  • 该模型已部署于某中心的应用生态中,包括元宝、QQ和某中心文档,某中心云上的API访问价格约为每百万输入标记0.18美元。

某中心于周四悄然发布了其迄今为止最强大的AI模型,其基准测试数据令人瞩目。Hy3预览版是该公司在完成全面基础设施重建后的首个模型,并于今日在GitHub、Hugging Face和ModelScope上开源。同时,它也在某中心云官方网站上以付费计划的形式提供。

Hy3模型拥有2950亿总参数(衡量模型潜在知识广度的指标),但任何时候仅激活210亿参数。这便是混合专家架构的优势所在——模型将每个查询路由到其“专家”子网络的特定子集,而非一次性运行所有参数。这带来了更低的计算量、更低的成本,以及大致相当的输出质量。该模型还支持高达25.6万标记的上下文长度,足以在一次提示中消化一部长篇小说。

该模型的构建旨在平衡三个方面,某中心表示不再牺牲其中任何一方:能力广度、诚实评估和成本效率。他们之前的旗舰模型Hy2拥有超过4000亿参数。某中心明确收窄了规模,认为2950亿是最佳平衡点,在此规模下,推理能力完全成熟,但增加更多参数的成本已不再划算。

这也不意味着模型性能更差。训练更优、参数更少的模型,常常能胜过规模更大的通用模型。

在编程方面,性能提升显著。SWE-bench Verified是一个测试模型能否真正修复GitHub仓库中真实Bug(非玩具问题,而是生产代码)的基准。Hy2得分为53.0%,而Hy3预览版得分74.4%。这意味着一代之间实现了40%的跃升,使其性能区间接近某机构的Claude Opus 4.6(80.8%),并超过了GLM-5(77.8%)和Kimi-K2.5(76.8%)。在Terminal-Bench 2.0(一个在真实命令行环境中衡量自主任务执行的基准)上,得分从23.2%提升至54.4%——同样是一次巨大飞跃。

然而,对于正在使用智能体进行开发的团队来说,该模型可能是一个非常有趣的选择。智能体拥有一套非常复杂的指令集,涉及记忆、技能和工具调用。它们通常会遗漏某些环节,这可能破坏工作流程或产生糟糕的结果。这就是为什么随着智能体能力成为行业最热门的领域,其对AI开发者变得越来越重要。这也是该模型立即在Openclaw上可用的原因。

搜索和浏览智能体——模型必须在没有人工引导的情况下从开放网络中检索、过滤和综合信息——也取得了显著提升。在BrowseComp(一个跟踪复杂网络研究任务的基准)上,Hy3预览版达到了67.1%(从Hy2的28.7%上升)。在WideSearch上,它达到了70.2%,优于GLM-5和Kimi-K2.5,但落后于某机构的Claude Opus 4.6的77.2%。

在推理能力上,该模型在清华大学数学博士资格考试(2026年春季)中击败了所有中国竞争对手,在三次运行的平均分(avg@3)中得分88.4。这是一个真实世界的考试,而非精心整理的数据集——某中心表示,这正是他们为规避基准操纵而优先采用的评估类型。该模型在CHSBO 2025(全国高中生物奥林匹克竞赛)中也获得了87.8分,是该类别中国模型中的最高分。

Hy3预览版于2026年1月下旬开始训练,并于周四发布——从零开始到开源发布,耗时不到三个月。这对一个前沿级别的模型来说异常迅速。某中心将其归功于由首席AI科学家领导的二月基础设施大修,他推动了预训练和强化学习技术栈的全面重建。

这与一年前中国AI实验室的做法截然不同,当时DeepSeek的R1以其成本效率震惊了业界。

Hy3仍落后于某机构和某机构的旗舰模型,但按规模与性能的比率来看,Hy3预览版难以被忽视:其智能体基准综合指标显示,它位于约2950亿参数的“最佳区域”,领先于DeepSeek-V3.2(超过6000亿参数),并以极小部分的计算成本匹敌Kimi-K2.5(超过1万亿参数)。

混元模型已部署于元宝、CodeBuddy、WorkBuddy、QQ和某中心文档中。在CodeBuddy和WorkBuddy上,首令牌延迟降低了54%,端到端生成时间减少了47%,模型成功运行了长达495步的智能体工作流。某中心云提供的API访问价格约为每百万输入标记0.18美元和每百万输出标记0.59美元,个人令牌计划套餐起价约为每月4.10美元。FINISHED