阿里Qwen3-Max-Thinking重磅发布:万亿参数模型角逐全球顶级AI行列

59 阅读3分钟

阿里通义团队发布旗舰模型 Qwen3-Max-Thinking 正式版,其总参数规模突破 1 万亿,跻身全球最大规模 AI 模型阵营,预训练数据量高达 36T Tokens,覆盖海量高质量语料。该模型作为通义团队迄今规模最大、能力最强的语言模型,包含 Base、Instruct 和 Thinking 多种版本,在推理、知识储备、工具使用及智能体能力等核心维度实现全面升级,直接对标 GPT-5.2-Thinking、Claude-Opus-4.5、Gemini-3 Pro 等国际顶级闭源模型。 在这里插入图片描述

Qwen3-Max-Thinking 的核心突破源于两项关键创新技术。其一为自适应工具调用能力,区别于传统需用户手动选择工具的模式,该模型可在对话过程中自主启用内置的搜索引擎、记忆模块和代码解释器。这一能力得益于专属训练流程:经工具使用微调后,模型通过规则与模型双重反馈完成多样化任务训练,不仅有效降低幻觉概率、支持实时信息获取,还能借助代码执行实现复杂计算推理,大幅提升对话实用性。其二是测试时扩展技术,研发团队摒弃简单增加并行推理路径的冗余方案,通过限制并行轨迹数量,将计算资源投入经验累积式多轮迭代自我反思。该机制能从过往推理中提炼关键洞见,避免重复推导,在相同 Token 消耗下实现更高上下文利用效率,使 GPQA、LiveCodeBench 等关键基准测试性能显著提升。

在多项权威基准测试中,Qwen3-Max-Thinking 展现出全球顶尖水准。综合 19 项覆盖科学知识、复杂推理、编程的核心测试,其表现与国际头部模型持平甚至超越。数学推理领域尤为亮眼,预览阶段便实现 AIME 25 和 HMMT 25 满分成就,IMO-AnswerBench 测试得分 83.9,彰显高难度数学问题解决能力;代码编程方面,LiveCodeBench v6 测试获 85.9 分,SWE-bench Verified(软件工程任务)得分 75.3,体现强劲的工程实践能力;知识与推理维度,C-Eval 测试达 93.7 分,GPQA 测试 87.4 分,工具使用类 Tau2 Bench 测试 82.1 分,均处于行业前列。此外,在 Arena-Hard v2 测试中,模型以 90.2 分的成绩展现出卓越的综合竞争力。 在这里插入图片描述 在这里插入图片描述

模型发布后迅速引发行业热议。海外开发者在社交平台称赞 Qwen 系列 “持续反超同类模型”,认可其迭代速度已超越 OpenAI 等国际厂商,认为高密度的更新与透明的沟通是对开发者的友好信号。部分用户直言这是 “期待已久的版本”,同时也提出产品层面的期待,希望安卓端应用能优化设计,实现与技术能力匹配的体验升级。网友反馈显示,外界对通义千问的关注已从单纯的技术突破,逐步延伸至产品体验与生态建设的全面适配。

目前,Qwen3-Max-Thinking 已在千问 App、PC 端及网页端同步上线,用户可免费体验,对应 API(qwen3-max-2026-01-23)也已开放。作为阿里 AI 技术的集大成之作,该模型不仅标志着国产大模型在万亿参数级别实现关键突破,更在与国际顶级模型的竞争中,展现出中国 AI 技术的硬实力。

体验地址:chat.qwen.ai/?spm=a2ty_o… 更多信息查阅:chat.qwen.ai/, qwen.ai/blog?id=qwe…