中国月之暗面推出免费AI模型Kimi K2,关键基准测试表现超越GPT-4

79 阅读3分钟

中国月之暗面发布Kimi K2:万亿级开源模型,性能碾压GPT-4,成本更低

中国人工智能初创公司月之暗面(Moonshot AI)近日重磅发布了新一代开源大语言模型 Kimi K2。这款拥有 万亿参数总量(其中活跃参数为320亿)的稀疏专家架构(MoE)模型,在关键基准测试中表现惊人,尤其在编程和智能体任务上超越行业标杆GPT-4,标志着中国AI模型取得重大突破。

Kimi K2 提供了两个版本:面向研究开发者的基础模型,以及专为聊天和智能体应用优化的指令微调版本。公司宣称:“Kimi K2 不只是回答,它更会行动... 借助 Kimi K2,先进的智能体技术比以往任何时候都更加开放和易得。”

该模型的核心亮点在于其对“智能体”能力的深度优化——即模型能够自主使用工具、编写并执行代码,无需人工干预即可完成复杂的多步骤任务。在权威基准测试中,Kimi K2 展现了卓越实力:

  • SWE-bench Verified(软件工程基准):65.8% 准确率,超越多数开源模型,媲美部分闭源模型。
  • LiveCodeBench(高真实度编程基准):53.7% 准确率,显著碾压 DeepSeek-V3 (46.9%) 和 GPT-4.1 (44.7%)。
  • MATH-500(数学推理):97.4% 的惊人准确率,远超 GPT-4.1 (92.4%),暗示月之暗面可能已攻克了数学推理领域的某些核心难题

更令人瞩目的是其成本效益。 报道指出,月之暗面以远低于行业巨头(如 OpenAI 需花费数亿美元计算资源追求渐进式改进)的成本,实现了同等甚至更优的性能。这正是一场“创新者窘境”的现实演绎——作为挑战者,月之暗面不仅追平了领先者的性能,更是以更优、更快、更省的方式做到了这一点。Kimi K2 的开源发布,无疑将大幅推动智能体技术的普及和创新生态的构建。


核心要点提炼:

  1. 模型发布: 中国月之暗面发布万亿级开源大模型 Kimi K2(MoE架构)。
  2. 性能卓越: 在关键编程(LiveCodeBench, SWE-bench)和数学(MATH-500)基准测试中超越 GPT-4.1 和 DeepSeek-V3 等强劲对手。
  3. 核心优势: 专为智能体(Agent)能力优化,能自主使用工具、写代码、执行复杂任务。
  4. 重大突破: 数学推理能力(97.4%)表现极为突出,暗示解决关键难题。
  5. 成本革命:远低于行业巨头的成本实现了顶尖性能,展现超高效率。
  6. 开源意义: 推动智能体技术普及和创新,生态影响深远。
  7. 定位: 是挑战者以“更好、更快、更省”方式颠覆行业的典型案例。

【智答专家】您身边免费的GPT4.1人工智能AI助手,免翻!!!无套路!国内直连,支持文本生成,问答,多语言支持,个性化建议,图片生成,代码纠正等等。扫码关注智达专家,欢迎体验。****

微信图片_20250507104423.jpg