杨植麟带领月之暗面(Kimi)团队在Reddit上进行了一场深夜在线答疑,首次集中回应了关于其最新模型Kimi K2 Thinking爆火后引发的一系列关注和争议。
🧠 关于训练成本与硬件
- 训练成本澄清:对于外界传闻的460万美元训练成本,杨植麟明确回应这不是官方数据。他解释说,训练成本很难精确量化,因为其中很大一部分投入用于研究和实验。
- 训练硬件:团队透露,K2 Thinking模型是在配备InfiniBand的H800 GPU集群上进行训练的。他们承认在GPU性能和数量上相较于美国的顶级配置不占优势,但强调通过技术手段“把每张显卡的性能都榨取到了极致”。
🔧 核心技术路线与未来规划
- KDA注意力机制:Kimi新提出的KDA(Kimi Delta Attention)混合注意力架构,在实验中表现出色。杨植麟透露,KDA相关的理念很可能应用于下一代K3模型的架构中。
- 多模态规划:针对目前K2 Thinking是纯文本模型的问题,团队确认视觉语言模型(VL)已经在开发中。之所以先发布文本模型,是因为视觉模型的数据获取和训练需要更多时间。
- K3的幽默预告:当被问及K3的发布时间,杨植麟幽默地回应:“在Sam(OpenAI CEO)的万亿级数据中心建成之前。”这既是对OpenAI高投入策略的调侃,也暗示了Kimi按照自身节奏发展的决心。
- 不跟风套壳:对于是否会开发AI浏览器,团队给出了否定答案,并表示“不需要创建另一个Chromium包装器”,而是专注于模型本身能力的提升。
⚖️ 模型表现与用户反馈
- 性能与效率的平衡:许多用户反馈K2 Thinking在处理任务时消耗的token较多,速度偏慢。团队解释,在当前版本中,他们优先考虑的是模型的绝对性能,牺牲了一定的token效率以换取更强的任务完成能力。但他们也表示,后续会尝试优化,将效率纳入模型的奖励机制。
- 回应“刷榜”质疑:对于模型在HLE等基准测试中高分与实际体验可能存在差距的质疑,杨植麟回应称,他们在提升智能体推理能力方面取得了一些进展,这恰好使模型在特定测试中表现优异。团队承诺将持续提升模型的通用能力,以更好地适应各种实际应用场景。
- 独特的写作风格:K2 Thinking不阿谀奉承、直接清晰的文风受到了不少用户的喜爱。团队透露,这是模型后训练阶段数据和评估标准共同作用的结果,他们有意地将模型设计得更为直接。
🌐 开源策略与生态建设
- 坚持开源信念:面对企业用户因地域等原因产生的顾虑,团队认为开源模型是企业自行部署、消除顾虑的有效途径。吴育昕表示:“我们拥抱开源,因为我们相信通用人工智能(AGI)应该是一个带来团结而不是分裂的追求。”
- API计费与上下文长度:针对按API调用次数计费引发的讨论,团队解释这是为了费用清晰并符合其成本结构,但承诺会寻找更好的方案。关于上下文窗口长度,团队坦言之前支持的100万token成本太高,未来会在成本可控的前提下考虑增加上下文长度。
💎 总结
通过此次深夜回应,Kimi团队向外界清晰地传达了其核心发展理念:不盲目追逐行业巨头的烧钱步伐,而是基于自身情况,通过架构创新和开源策略,走一条高效且专注的技术路线。对于OpenAI的巨额投入,他们坦言“不知道原因”,并表示“我们有自己的方式和节奏”。
希望以上信息能帮你全面了解Kimi团队的这次重要回应。如果你对K2 Thinking在编码、Agent任务等具体能力上的表现有进一步兴趣,我很乐意为你提供更详细的介绍。
【智答专家】您身边免费的GPT4.1人工智能AI助手,免翻!!!无套路!国内直连,支持文本生成,问答,多语言支持,个性化建议,图片生成,代码纠正等等。扫码关注智达专家,欢迎体验。