LLaMA-Factory 集成 KTransformers 后端：实现低成本超大规模 MoE 模型微调LLaMA-Fa

本文较长，建议点赞收藏。更多AI大模型应用开发学习视频及资料，在智泊AI。

LLaMA-Factory 团队正式宣布现已正式支持 KTransformers 后端，为微调超大规模模型（尤其是 MoE 结构模型）提供了一套显存需求显著降低、训练吞吐量更高的解决方案。

一、核心优势

显存需求大幅降低 · 微调 14B 模型仅需约 6GB GPU 显存。 · 即使是 671B 模型，也仅需 70GB 总 GPU 显存，并支持跨卡分载。
训练吞吐量提升 · 在 14B 模型上，微调吞吐量较 HuggingFace 提升约 75%。 · 在 671B 模型上，仍可维持约 40 token/s 的推理速度。
无缝集成现有工作流 · 完全兼容 LLaMA-Factory 原有训练配置与脚本，用户无需改动核心代码即可切换后端。
多场景验证通过 · 已在风格化对话、翻译、医疗问答等任务中完成测试，验证了其训练稳定性与效果。