LLaMA-Factory 集成 KTransformers 后端:实现低成本超大规模 MoE 模型微调

79 阅读2分钟

本文较长,建议点赞收藏。更多AI大模型应用开发学习视频及资料,在智泊AI

LLaMA-Factory 团队正式宣布现已正式支持 KTransformers 后端,为微调超大规模模型(尤其是 MoE 结构模型)提供了一套显存需求显著降低、训练吞吐量更高的解决方案。

一、核心优势

  1. 显存需求大幅降低 · 微调 14B 模型仅需约 6GB GPU 显存。   · 即使是 671B 模型,也仅需 70GB 总 GPU 显存,并支持跨卡分载。
  2. 训练吞吐量提升 · 在 14B 模型上,微调吞吐量较 HuggingFace 提升约 75%。   · 在 671B 模型上,仍可维持约 40 token/s 的推理速度。
  3. 无缝集成现有工作流 · 完全兼容 LLaMA-Factory 原有训练配置与脚本,用户无需改动核心代码即可切换后端。
  4. 多场景验证通过 · 已在风格化对话、翻译、医疗问答等任务中完成测试,验证了其训练稳定性与效果。

二、技术实现与后续计划

微调方案基于 KTransformers 推理后端,优化了模型加载与计算调度逻辑,从而有效控制显存占用并提升训练效率。

接下来团队的开发重点包括:

· 增加对 Qwen3-MoE、Kimi-K2 等模型的微调模板支持。 · 进一步优化多 GPU 并行策略。 · 降低训练过程中的 CPU 内存占用。

三、如何启用

用户现在即可在 LLaMA-Factory 中通过切换训练后端至 ktransformers 来体验这一功能。具体配置示例与优化参数已更新至项目仓库及相关文档。

四、相关链接资源

KTransformers项目仓库: github.com/kvcache-ai/… LLaMA-Factory+KTransformers: github.com/hiyouga/LLa…

用户指南:swcil84qspu.feishu.cn/wiki/Z1sSwb…_copylink

技术详情:swcil84qspu.feishu.cn/wiki/Kxovwm…_copylink

学习资源推荐

如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。

本文较长,建议点赞收藏。更多AI大模型应用开发学习视频及资料,在智泊AI