1 月 27 日,月之暗面(Moonshot)正式发布并开源新一代模型 Kimi K2.5。作为一次瞄准技术前沿的全力进击,其官方定位直指 “开源最强模型”,展现出充分的技术自信。
本次升级的核心,聚焦于两项颠覆性的能力重构:
- 智能集群体:从“单兵”到“军团”
K2.5 引入了“Agent Swarm”(智能集群体)架构。它能全自动调度多达 100 个子智能体,并行执行 1500 次工具调用,将复杂任务分解后同步处理。这种模式将端到端任务运行时间缩短了高达 80%,效率提升最高 4.5 倍,能高效完成大规模调研、文献综述等需要多步协作的复杂工作。
- 视觉编程:从“看见”到“创造”
K2.5 拥有深度视觉编程能力,实现了从“识别”到“创造”的升级。正如其核心升级点 “Aesthetic Coding”(审美编程) 能力,只需上传一段网页交互录屏,K2.5 便能像资深开发者一样,拆解其背后的动态逻辑与视觉风格,并生成具备同等审美与交互效果的完整前端代码,甚至能进行视觉调试与修正。这项能力超越了传统的图像识别,极大降低了从视觉创意到高质量代码实现的门槛。
而支撑上述亮点的,是 K2.5 在权威基准测试中展现的扎实性能。官方数据显示,在编程、 智能体 与多模态等核心维度上,K2.5 均取得了开源模型的 SOTA 表现。在硬核的 SWE-Bench Verified 测试中得分高达 76.8%,在综合推理测试 HLE-Full 中也位居榜首。这些成绩不仅超越了包括 DeepSeek V3 在内的其他顶尖开源模型,甚至在部分关键指标上已与 GPT-5.2、Gemini 3 Pro 等闭源巨头达到了同一梯队,展现出极其强大的综合实力。
Artificial Analysis 榜单中位居第五:
而就在 Kimi K2.5 发布前几天,阿里通义团队也率先亮出了王牌——Qwen3-Max-Thinking。作为千问系列迄今为止规模最大、能力最强的推理模型,其凭借超万亿参数规模与 36T Tokens 的预训练数据,在数学推理、代码编辑与综合 基准测试 中,同样展现出对标国际顶级模型的顶尖水准。
两大国产巨头的旗舰模型竞相登场,打响了 2026 国产大模型竞赛的第一枪。
302.AI 已同步接入 Kimi K2.5 与 Qwen3-Max-Thinking 的模型 API。本期测评,我们将通过一系列实际任务,让这两位重量级选手同台竞技。这不仅仅是一场简单的功能对比,更是对技术路线、集群智能与深度推理能力边界的深度探究。究竟谁能更精准地理解意图,谁能更高效地解决复杂问题?我们拭目以待。
I. 实测模型基础信息
(1)各实测模型在 302.AI 的价格:
(2)测评目的:
本评测侧重模型对逻辑,数学,编程,人类直觉等问题的测试,非专业前沿领域的权威测试。旨在观察对比模型的进化趋势,提供选型参考。
(3)测评方法:
本次测评使用302.AI收录的题库进行独立测试。3款模型分别就逻辑与数学(共10题),人类直觉(共7题)以及编程模拟(共12题)进行案例测试,对应记分规则取最终结果,下文选取代表性案例进行展示。
题库地址:docs.google.com/spreadsheet…
💡记分规则:
按满分10分记分,设定对应扣分标准,最终取每轮得分的平均值。
(4)测评工具:
-
所有模型均在302.AI Stuidio客户端内使用对应模型,使用统一的提示词,取第一次生成结果
-
编程测试使用302.AI Stuidio客户端的Vibe模式:调用Claude Code沙盒 + Skills(本期实测使用 brand-guidelines 和 frontend-design)
编程案例分数评级:
⭐⭐⭐⭐⭐ S 级(封神): 行业标杆,重新定义标准。
⭐⭐⭐⭐ A 级(卓越): 生产力合格,无明显短板。
⭐⭐⭐ B 级(优秀): 表现中规中矩,存在短板。
⭐⭐及以下 C级(不合格): 不可用,存在明显问题。
II. 测试结果总览
302.AI 题库测试结果:
302.AI 多模态模型测评分数总榜单:
剔除多模态分数榜单:
III. 案例展示
案例 1:逻辑推理
与 Qwen3-Max-Thinking 相比,Kimi K2.5 在逻辑推理上的输出更学术和严谨,偏好提供数学推导的形式化证明,扩展分析能力较强,常附加反事实与边界讨论,对细节的把握更准确,缺陷在于可能增加过度分析的风险;Qwen3-Max-Thinking 则偏向实用主义、简化问题,推导过程以应用公式为主,点到为止,缺陷在于多角度分析延展性不足。
提示词:解出正确的三位数密码
Qwen3-Max-Thinking 不具备多模态能力,图示题目经文字处理后输入
Kimi K2.5: 推理正确
Qwen3-Max-Thinking: 推理错误
案例 2:多模态推理
Qwen3-Max-Thinking 不具备多模态能力,不参与此案例测评
Kimi K2.5 在多模态能力上表现均衡,没有明显短板,尤其在保持文本能力的同时,多模态能力也能与闭源模型处于同一梯队。
提示词:请将图中打乱顺序的漫画按照逻辑排列出正确顺序 正确答案:E→F→A→C→B→D
Kimi K2.5: 给出了非标准答案但逻辑自洽,提供了这则漫画的另一种解读角度。
案例 3:前端编程-品牌网页
在编程与模拟实测中,Kimi K2.5 表现出设计师与全栈工程的混合思维,关注从视觉到实现的完整闭环。这表现在其输出的内容始终以用户体验为核心,界面精美、交互丰富,功能完整性和细节关注度都投入大量精力,适合制作演示、概念验证、用户测试原型等任务。
而 Qwen3-Max-Thinking 则表现出传统软件工程思维,重视代码结构、规范性和可维护性。体现在其能够输出清晰的代码组织,充分考虑到可维护性、可扩展性、模块化,适合构建需要长期维护的生产系统。
使用最简单的需求让模型进行随机发挥:
提示词:为 Anthropic 创建一个品牌展示网页。
Kimi K2.5: 创建了完整的单页网站,导航、英雄区、特性展示、统计数据、行动号召区和页脚齐全。
✅ 优势项:
- 视觉设计丰富,主动设置了浮动卡片动画和悬停效果
- 交互功能丰富,设置了统计数字计数动画与滚动导航栏效果
- 品牌契合度较高,提到了Claude 3.5 Sonnet
❌ 缺陷:
- 大量CSS动画和JavaScript可能影响页面加载性能
Qwen3-Max-Thinking:
✅ 优势项:
- 基本实现核心功能,代码更简洁,易于理解和维护
❌ 缺陷:
- 内容上只有基本结构,缺少详细的产品展示和公司信息,品牌展示力不足
- 只有基本的导航和平滑滚动,缺少高级交互
| 测评点 | Kimi K2.5 | Qwen3-Max-Thinking |
|---|---|---|
| 功能完整性 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ |
| 视觉效果 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ |
| 交互体验 | ⭐⭐⭐⭐ | ⭐⭐⭐ |
案例 4:前端编程-快递小程序
提示词:
请担任高级全栈架构师和产品经理的角色,为我设计和生成一个类似“菜鸟裹裹”或“顺丰速运”的快递服务微信小程序的项目方案与核心代码。
一、项目核心目标
开发一个集“快递寄件、运单查询、上门取件预约、服务点查找”于一体的综合性快递服务小程序。核心特点是:流程标准化、状态透明化、操作便捷化。
二、详细需求说明
用户端核心功能模块:
首页/快速寄件:
- 核心寄件表单:寄/收件人信息(姓名、电话、地址)、物品信息(类型、重量/数量、备注)、取件时间选择。
- 一键复制常用地址或从地址簿选择。
- 实时运费估算功能(根据地址、重量模拟计算)。
运单查询(核心功能):
- 通过运单号或扫码查询快递物流详情。
- 以清晰的时间轴形式展示物流状态(如:已下单、快递员已取件、运输中、到达网点、派送中、已签收)。
- 支持同时添加并管理多个运单(我的快递)。
上门取件预约管理:
- 展示已预约的取件订单列表(待取件、已完成)。
- 允许修改取件时间或取消订单。
服务网点查找:
- 基于用户位置或手动输入地址,显示附近的快递网点、智能柜位置。
- 展示网点信息(名称、地址、距离、营业时间、联系方式)。
- 集成简易地图视图进行位置展示。
个人中心:
- 我的地址簿管理(增删改查)。
- 我的运单历史记录。
- 在线客服入口。
技术栈与框架要求:
- 前端: 使用微信小程序原生框架,UI组件库推荐使用Vant Weapp,因其有丰富的表单和列表组件。需集成微信小程序地图组件(Map)。
- 后端(模拟/简化): 使用Node.js (Express) 提供API。本次重点模拟核心业务流程,数据库可先用JSON文件模拟。
- 关键集成(模拟): 物流查询API(可用模拟数据实现)、地图选址(模拟坐标点)、微信支付(模拟流程)。
交付要求:
第一步: 输出项目整体目录结构。
第二步: 输出核心数据结构的JSON格式定义(重点:
User用户,Address地址,ExpressOrder寄件订单,Logistics物流轨迹)。第三步: 优先实现并交付以下关键页面的前端代码(WXML, WXSS, JS) 和对应的后端API接口定义(路径、方法、请求/响应示例):
快速寄件页:完整的表单验证与提交逻辑。运单查询结果页:物流时间轴组件的实现与数据渲染。服务网点页:静态网点数据列表与地图组件的集成展示。
Kimi K2.5: 基本实现核心功能。
✅ 优势项:
- 移动端体验优秀:底部导航栏符合小程序规范,手势操作支持完善(交换地址、时间选择等)
- 功能完整度更高:三个核心功能页面(寄件、查询、网点)都实现了交互,运费估算、价格明细弹窗、网点筛选等细节较完善
- 视觉交互设计协调:卡片式设计,层级清晰,交互细节(表单验证、数量选择、时间选择等)丰富
❌ 缺陷:
- 微信登录、支付、扫码等核心功能未集成
- 没有组件化,代码复用性差
Qwen3-Max-Thinking: 基本实现核心功能。
✅ 优势项:
- 代码结构清晰:模块化程度更高,页面切换逻辑简单明了
- 技术实现更规范:代码可读性较好,事件监听和处理规范
❌ 缺陷:
- 移动端适配不足:没有底部导航栏,不符合小程序交互习惯
- 功能深度不足:缺少运费明细、地址切换、联系快递员等实用功能
- 视觉设计简单:品牌感较弱,卡片设计较为平淡,缺少层次感
| 测评点 | Kimi K2.5 | Qwen3-Max-Thinking |
|---|---|---|
| 功能完整性 | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| 视觉效果 | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| 交互体验 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ |
案例 5:前端编程-网页复刻
Qwen3-Max-Thinking 不具备多模态能力,不参与此案例测评
Kimi K2.5 支持上传网页录屏,生成具备同等审美与交互效果的完整前端代码。以下截取 Figma 网站首页录屏,使用提示词“尝试复刻录屏中的网页”,并向模型提供6张首页轮播图片,测试模型的网页复刻能力。
Kimi K2.5 输出效果:
| 测评点 | Kimi K2.5 |
|---|---|
| 功能完整性 | ⭐⭐⭐ |
| 视觉效果 | ⭐⭐⭐⭐⭐ |
| 交互体验 | ⭐⭐⭐⭐ |
Kimi K2.5 持续发挥强项,输出了一个视觉还原度极高的复刻版本,虽然插图轮播效果和部分细节不能完全还原,但视觉上配色和比例都较为协调,文字渐入的动效也完美复刻,再次体现了其 Aesthetic Coding(审美编程)的核心特质。
IV. Kimi K2.5 & Qwen3-Max-Thinking****模型实测结论
实测结果汇总:
| 序号 | 案例1 | 案例 2 | 案例 3 | 案例 4 | 案例 5 |
|---|---|---|---|---|---|
| 测试案例 | 逻辑推理 | 多模态推理 | 前端编程-品牌网页 | 前端编程-快递小程序 | 前端编程-网页复制 |
| Kimi K2.5 | ✔️ | ❌ | 14 | 13 | 12 |
| Qwen3-Max-Thinking | ❌ | - | 9 | 9 | - |
从实测结果和案例表现来看,这次 Kimi K2.5 的升级,带来的远不止参数或分数的提升。
过去,我们总在适应 AI —— 学习怎么写 Prompt、怎么拆解任务、怎么把模糊的想法变成机器能懂的指令。但 K2.5 似乎在反过来适应我们:给它一张截图,它就能还你一个可用的界面;给它一段录屏,它就能拆解出背后的代码逻辑;哪怕只是简单描述一个需求,它也能调度起智能集群体,默默把事办妥。
这也印证了本期测评中一个清晰的观察:与 Qwen3-Max-Thinking 不同,Kimi K2.5 代表的是当下 AI 发展的另一种路径:
Qwen3-Max-Thinking 更像一位“严谨的工程专家” ——重视结构,追求稳健,产出的代码更像一份逻辑清晰的工程蓝图。不一定能营造出眼前一亮的视觉效果,但能给你一种代码能放进正式项目里长期维护的踏实感。它的优势在于扎实、可靠、可预期。
而 Kimi K2.5 则更像一位 “全栈创意搭档” ——关心审美,重视用户体验,擅长把模糊的视觉灵感快速固化成可交互的产物。每一行代码皆是充满设计感,它的工作流带给人一种并行感,试图让你感觉不是在和机器对话,而是在指挥一个懂产品、懂设计、懂技术的全能团队。潜台词是:你负责定义问题,剩下的我来搞定。
孰优孰劣?这或许是个伪命题。
如果你需要快速原型验证、高设计感的营销页面、或是任何“从想法到可视化产物”的短链路创作,Kimi K2.5 目前的开源选择中,几乎独一档。它的视觉能力和集群调度,确实大幅压缩了创意实现的周期。而如果你要构建需长期迭代、稳定运行的生产系统,追求代码的可维护性与架构清晰度,那么 Qwen3-Max-Thinking 所代表的工程化思维,无疑是更稳妥的基石。
回过头来看,Kimi 本次升级最值得留意的,可能不是它又刷榜了几个测试项,而是它灵活地呼应了一个趋势:AI 正在从需要学习和驾驭的工具,慢慢转变为能够理解用户意图并自主协同的工作搭子。
或许在不久之后,评价一个人生产力的标准,就会包含他是否善于定义问题,以及是否精通与 AI 协作。而 Kimi K2.5,已经让我们提前瞥见了这个未来的一角。