PPIO上线快手开源代码模型KAT-Dev-32B

45 阅读2分钟

今天,PPIO 上线 KAT-Dev-32B,这是由快手推出的全新开源代码模型。

在 SWE-Bench Verified 测试中, KAT-Dev-32B 解决率达到 62.4%, 在所有不同规模的开源模型中排名第五。

该模型支持 128K 上下文,价格为每百万输入 tokens 1 元、每百万输出 tokens 3 元。

现在,前往 PPIO 官网或点击文末阅读原文即可体验 KAT-Dev-32B 。新用户填写邀请码 【LUUV7S】 注册可得 15 元代金券。

快速入口:ppio.com/llm/kwaipil…

开发者文档:ppio.com/docs/model/…

  1. 模型创新点

KAT-Dev-32B 通过多个阶段的训练进行优化,包括中期训练阶段(Mid-Training)、监督微调(SFT)和强化微调(RFT)阶段以及大规模代理强化学习(Agentic RL Scaling)阶段。

中期训练: 在当前阶段(例如在SWE-bench等排行榜上)增加工具使用能力、多轮交互和指令遵循的广泛训练可能不会带来显著的性能提升。但由于实验基于 Qwen3-32B 模型,团队发现增强这些基础能力将对后续的SFT和RL阶段产生重要影响。这表明提升此类核心能力能够深刻影响模型处理更复杂任务的能力。

SFT & RFT: 精心设计了八种任务类型和八种编程场景,以确保模型的泛化能力和综合性能。此外,在RL 阶段之前,创新性地引入了RFT阶段。与传统RL相比,在训练中融入了由工程师标注的"教师轨迹"作为指导——正如新手驾驶员在正式上路前需要教练陪同练习。这一步骤不仅提升了模型性能,还进一步稳定了后续的RL训练。

Agentic RL 扩展

扩展智能强化学习主要面临三大挑战:在非线性轨迹历史上实现高效学习、利用模型内在信号,以及构建可扩展的高吞吐量基础设施。通过 RL 训练引擎中的多级前缀缓存机制、基于熵的轨迹剪枝技术,以及内部实现的 SeamlessFlow 架构来解决这些挑战——该架构在充分利用异构计算资源的同时,实现了智能体与训练的清晰解耦。这些创新共同降低了扩展成本,实现了高效的大规模强化学习。

以下是模型在 SWE-Bench Verified 的性能变化:

  1. 在线体验

以下是官方给出的用户使用案例。

“星空”前端生成:

水果忍者游戏:

代理重构任务:

你可以到 PPIO 官网在线体验 ,或者将模型 API 接入 Cherry Studio、ChatBox 或者你自己的 AI 工作流中。

查看详细接入教程:ppio.com/docs/model/…

KAT-Dev-32B 通过可扩展的 Agentic RL推进代码智能。