阿里Qwen3-Max-Thinking重磅发布：万亿参数模型角逐全球顶级AI行列阿里通义团队发布旗舰模型 Qwen3-

阿里通义团队发布旗舰模型 Qwen3-Max-Thinking 正式版，其总参数规模突破 1 万亿，跻身全球最大规模 AI 模型阵营，预训练数据量高达 36T Tokens，覆盖海量高质量语料。该模型作为通义团队迄今规模最大、能力最强的语言模型，包含 Base、Instruct 和 Thinking 多种版本，在推理、知识储备、工具使用及智能体能力等核心维度实现全面升级，直接对标 GPT-5.2-Thinking、Claude-Opus-4.5、Gemini-3 Pro 等国际顶级闭源模型。在这里插入图片描述

Qwen3-Max-Thinking 的核心突破源于两项关键创新技术。其一为自适应工具调用能力，区别于传统需用户手动选择工具的模式，该模型可在对话过程中自主启用内置的搜索引擎、记忆模块和代码解释器。这一能力得益于专属训练流程：经工具使用微调后，模型通过规则与模型双重反馈完成多样化任务训练，不仅有效降低幻觉概率、支持实时信息获取，还能借助代码执行实现复杂计算推理，大幅提升对话实用性。其二是测试时扩展技术，研发团队摒弃简单增加并行推理路径的冗余方案，通过限制并行轨迹数量，将计算资源投入经验累积式多轮迭代自我反思。该机制能从过往推理中提炼关键洞见，避免重复推导，在相同 Token 消耗下实现更高上下文利用效率，使 GPQA、LiveCodeBench 等关键基准测试性能显著提升。

在多项权威基准测试中，Qwen3-Max-Thinking 展现出全球顶尖水准。综合 19 项覆盖科学知识、复杂推理、编程的核心测试，其表现与国际头部模型持平甚至超越。数学推理领域尤为亮眼，预览阶段便实现 AIME 25 和 HMMT 25 满分成就，IMO-AnswerBench 测试得分 83.9，彰显高难度数学问题解决能力；代码编程方面，LiveCodeBench v6 测试获 85.9 分，SWE-bench Verified（软件工程任务）得分 75.3，体现强劲的工程实践能力；知识与推理维度，C-Eval 测试达 93.7 分，GPQA 测试 87.4 分，工具使用类 Tau2 Bench 测试 82.1 分，均处于行业前列。此外，在 Arena-Hard v2 测试中，模型以 90.2 分的成绩展现出卓越的综合竞争力。在这里插入图片描述

模型发布后迅速引发行业热议。海外开发者在社交平台称赞 Qwen 系列 “持续反超同类模型”，认可其迭代速度已超越 OpenAI 等国际厂商，认为高密度的更新与透明的沟通是对开发者的友好信号。部分用户直言这是 “期待已久的版本”，同时也提出产品层面的期待，希望安卓端应用能优化设计，实现与技术能力匹配的体验升级。网友反馈显示，外界对通义千问的关注已从单纯的技术突破，逐步延伸至产品体验与生态建设的全面适配。

目前，Qwen3-Max-Thinking 已在千问 App、PC 端及网页端同步上线，用户可免费体验，对应 API（qwen3-max-2026-01-23）也已开放。作为阿里 AI 技术的集大成之作，该模型不仅标志着国产大模型在万亿参数级别实现关键突破，更在与国际顶级模型的竞争中，展现出中国 AI 技术的硬实力。

体验地址：chat.qwen.ai/?spm=a2ty_o… 更多信息查阅：chat.qwen.ai/, qwen.ai/blog?id=qwe…