主流大模型微调开源框架概述

2025-11-02 55 阅读2分钟

Transformers (Hugging Face)

Transformers是由Hugging Face开发的最广泛使用的NLP库之一，提供了预训练模型的访问和微调功能。

提供了数百种预训练模型的访问
支持多种模型架构（BERT、GPT、T5等）
与PyTorch和TensorFlow兼容
提供了简单易用的API进行微调

PEFT (Parameter-Efficient Fine-Tuning)

PEFT是Hugging Face开源的一个参数高效微调库，旨在通过微调少量参数来适应各种下游任务，从而显著降低计算和存储成本。

支持多种参数高效微调方法（LoRA、Prefix Tuning、P-Tuning等）
与Transformers库无缝集成
大幅降低微调所需的计算资源
支持多适配器功能，可以为一个基础模型添加多个微调头

LLaMA-Factory

LLaMA-Factory是一个开源的低代码大模型训练框架，专为大型语言模型（LLMs）的微调而设计，由北京航空航天大学和北京大学的研究团队开发。

高效且低成本地支持对100多个模型进行微调
提供友好的用户界面，无需编写代码即可微调LLMs
支持多个数据集选项
集成了业界最广泛使用的微调方法和优化技术
支持实时监控和评估
提供基于vLLM的OpenAI风格API、浏览器界面和命令行接口

ModelScope

ModelScope是阿里巴巴推出的一个"模型即服务"(MaaS)平台，旨在汇集来自AI社区的最先进的机器学习模型，并简化在实际应用中使用AI模型的流程。

提供模型、数据集下载能力
支持多种模态的模型训练和推理
集成了多种优化技术
提供了完整的模型训练、评估和部署流程

MS-SWIFT

MS-SWIFT (Scalable lightWeight Infrastructure for Fine-Tuning) 是ModelScope社区提供的一个用于大语言模型和多模态大模型微调和部署的官方框架。

支持500+大语言模型和200+多模态大模型的训练、推理、评测和部署
支持多种轻量级微调方法（LoRA、QLoRA、DoRA等）
支持分布式训练技术（DDP、DeepSpeed、FSDP等）
支持人类对齐训练方法（DPO、GRPO、RM、PPO等）
支持多种量化技术（BNB、AWQ、GPTQ等）
提供完整的训练、推理、评估、量化和部署流程