大模型垂直领域微调系列(二):ms-swift 框架全景

0 阅读16分钟

大模型垂直领域微调系列(二):ms-swift 框架全景

img

作者:吴佳浩

撰稿时间:2026-3-9

测试版本:ms-swift v4.0.1


目录


1. ms-swift 是什么

ms-swift(ModelScope Scalable lightWeight Infrastructure for Fine-Tuning)是阿里云魔搭社区(ModelScope)开源的大模型与多模态大模型微调部署一体化框架。

核心定位:让开发者用最少的代码和资源,完成大模型从训练到上线的完整链路,不需要任何深度学习代码,命令行即可完成一站式操作

论文背书:已在 AAAI 2025 发表,arXiv:arxiv.org/abs/2408.05…

版本说明

  • ms-swift 4.x(main 分支):最新版本,本文基于此版本
  • ms-swift 3.x(release/3.12 分支):稳定版本
  • ms-swift 2.x:已停止主要更新

核心规模数字

指标数量
支持纯文本大模型600+
支持多模态大模型400+
内置训练数据集150+
支持训练方法(PEFT + 其他)15+
支持评测数据集100+
支持推理引擎4 种(Transformers/vLLM/LMDeploy/SGLang)
支持硬件NVIDIA GPU、Ascend NPU、MPS、CPU

2. 核心能力全景

ms-swift 的核心能力可分为五大板块:

mindmap
  root((ms-swift))
    训练
      CPT
      SFT
      RLHF
      GRPO
      Embedding
    推理
      Transformers
      vLLM
      LMDeploy
      SGLang
    评测
      EvalScope
      Benchmark
    量化
      AWQ
      GPTQ
      BNB
      FP8
    部署
      OpenAI API
      Web UI
      ModelScope

亮点特性

热门模型 Day-0 支持:主流开源模型发布当天,ms-swift 即跟进支持,是目前响应速度最快的微调框架之一。

全模态覆盖:不仅支持纯文本大模型,还全面支持图像、视频、音频多模态模型,以及 All-to-All 全模态模型(如 Qwen3-Omni)。

GRPO 算法族完整实现:内置 GRPO、DAPO、GSPO、SAPO、CISPO、CHORD、RLOO、Reinforce++ 等多种强化学习算法变体,同时支持同步和异步 vLLM 引擎加速采样。

Megatron 并行集成:集成 Megatron 并行技术,支持 TP/PP/SP/CP/EP/VPP 等多种并行策略,可将 MoE 模型训练速度提升约 10 倍。


3. 整体架构与模块设计

3.1 全链路架构

graph TD
    subgraph Input
        DATA[数据集]
        MODEL[基础模型]
        CFG[训练配置]
    end
    subgraph Training
        SFT[swift sft]
        PT[swift pt]
        RLHF[swift rlhf]
    end
    subgraph Inference
        INFER[swift infer]
        DEPLOY[swift deploy]
        APP[swift app]
    end
    subgraph Output
        EVAL[swift eval]
        EXPORT[swift export]
        WEBUI[swift web-ui]
    end
    DATA --> Training
    MODEL --> Training
    CFG --> Training
    Training --> Inference
    Training --> Output
    Inference --> Output

3.2 两种使用方式

方式一:命令行(CLI)—— 推荐

所有功能都通过 swift 命令驱动,参数化配置,无需写任何训练代码:

# 训练
swift sft --model ... --dataset ... --tuner_type lora

# 推理
swift infer --adapters ...

# 部署
swift deploy --adapters ... --infer_backend vllm

# 评测
swift eval --adapters ...

# 量化导出
swift export --adapters ... --quant_bits 4

方式二:Python API

适合需要在代码中集成训练/推理流程的场景:

from swift import TransformersEngine, InferRequest, RequestConfig

engine = TransformersEngine(
    model_id_or_path="Qwen/Qwen3-7B-Instruct",
    adapters=["output/checkpoint-xxx"]
)

infer_request = InferRequest(
    messages=[{'role': 'user', 'content': '你好'}]
)
request_config = RequestConfig(max_tokens=512, temperature=0.1)
resp_list = engine.infer([infer_request], request_config)
print(resp_list[0].choices[0].message.content)

方式三:Web-UI

基于 Gradio 的可视化界面,零代码完成全链路操作,一条命令启动:

swift web-ui
# 默认访问 http://localhost:7860

4. 支持的模型

4.1 纯文本大模型(600+)

ms-swift 对以下主流模型系列提供完整支持:

模型系列代表模型参数规模特点
Qwen3 / Qwen2.5Qwen3-4B/7B/14B/32B/72B0.6B~235B中文能力强,推荐首选
DeepSeek-R1 / V3DeepSeek-R1-7B/14B/32B/70B7B~671B推理能力突出
Llama 4 / 3.3 / 3.1Llama-3.1-8B/70B/405B1B~405B英文能力强,社区资源丰富
InternLM3InternLM3-8B/20B8B~20B中英双语,学术友好
GLM4.5GLM4.5-9B9B对话能力出色
Mistral / MixtralMistral-7B、Mixtral-8x7B7B~141BMoE 架构代表
Phi-4Phi-4-14B14B小参数高性能
Gemma3Gemma3-4B/12B/27B1B~27BGoogle 出品

4.2 多模态大模型(400+)

模型系列支持模态特点
Qwen3-VL图像+文本强视觉理解,文档/图表分析优秀
Qwen3-Omni图像+音频+文本全模态,端到端处理
InternVL3.5图像+文本高分辨率图像,OCR 能力强
MiniCPM-V-4图像+文本轻量高效,端侧友好
LLaVA图像+文本社区广泛使用
DeepSeek-VL2图像+文本MoE 架构,效率高
GLM4.5-V图像+文本中文图文理解出色
Ovis2.5图像+文本视觉指令跟随优秀

4.3 模型下载说明

ms-swift 默认从 ModelScope 下载模型,如需使用 HuggingFace:

# 使用 HuggingFace
swift sft --model meta-llama/Llama-3.1-8B-Instruct --use_hf true

# 离线环境使用本地模型
swift sft --model /path/to/local/model --check_model false

5. 支持的训练方法

5.1 轻量微调方法(PEFT)

graph TD
    PEFT[轻量微调 PEFT]
    PEFT --> L[LoRA 系列]
    PEFT --> A[Adapter 系列]
    PEFT --> O[其他方法]
    L --> L1[LoRA]
    L --> L2[QLoRA]
    L --> L3[DoRA]
    L --> L4[LoRA+]
    L --> L5[RS-LoRA]
    L --> L6[LongLoRA]
    L --> L7[AdaLoRA]
    A --> A1[Adapter]
    A --> A2[LLaMA-Pro]
    O --> O1[LISA]
    O --> O2[ReFT]
    O --> O3[VeRA]
    O --> O4[BOFT]
    O --> O5[FourierFT]
    O --> O6[GaLore]
    O --> O7[UnSloth]

各方法适用场景速查

方法显存需求训练速度效果最适合场景
LoRA中(16~24G)绝大多数场景首选
QLoRA低(9~12G)中高消费级 GPU,快速验证
DoRA较快LoRA 效果不稳定时
LoRA+更快追求更快收敛
AdaLoRA自动调整各层 rank
LLaMA-Pro最大程度保留原有能力
LISA极低(<8G)超低资源,超大模型
GaLore全参训练的低显存替代
UnSloth最快追求训练速度

5.2 全量微调(Full Fine-tuning)

# 全参微调示例(需要大显存)
CUDA_VISIBLE_DEVICES=0,1,2,3 NPROC_PER_NODE=4 \
swift sft \
    --model Qwen/Qwen3-7B-Instruct \
    --tuner_type full \
    --deepspeed zero2 \
    --dataset your_data.jsonl \
    --torch_dtype bfloat16 \
    --num_train_epochs 2 \
    --learning_rate 1e-5 \
    --output_dir output

5.3 训练加速技术

ms-swift 内置多种训练加速与显存优化技术:

技术参数效果说明
Flash Attention 2/3--attn_impl flash_attn速度提升 + 显存降低A100/H100 强烈推荐
Gradient Checkpointing--gradient_checkpointing true显存降低 40%默认开启,略降速度
Packing--packing trueGPU 利用率提升将短序列打包到 max_length
Padding-free--padding_free true显存降低 + 速度提升需配合 flash_attn
Sequence Parallel--sequence_parallel_size N支持超长序列多卡序列并行
Liger-Kernelpip install liger-kernel显存降低算子融合优化

5.4 分布式训练支持

graph TD
    DIST[分布式训练策略]
    DIST --> DDP[DDP 数据并行]
    DIST --> DS[DeepSpeed]
    DIST --> FSDP[FSDP / FSDP2]
    DIST --> MEG[Megatron 并行]
    DS --> Z1[ZeRO-1]
    DS --> Z2[ZeRO-2]
    DS --> Z3[ZeRO-3]
    MEG --> TP[张量并行 TP]
    MEG --> PP[流水线并行 PP]
    MEG --> SP[序列并行 SP]
    MEG --> EP[专家并行 EP]

DeepSpeed ZeRO 策略选择

策略显存优化通信开销适用场景
ZeRO-1显存充足,求速度
ZeRO-2多卡 SFT 推荐
ZeRO-3高(可训超大模型)70B+ 模型,显存紧张
# 多卡 DeepSpeed ZeRO-2 训练
NPROC_PER_NODE=4 CUDA_VISIBLE_DEVICES=0,1,2,3 \
swift sft \
    --model Qwen/Qwen3-14B-Instruct \
    --tuner_type lora \
    --deepspeed zero2 \
    --dataset your_data.jsonl \
    --output_dir output

5.5 RLHF 偏好对齐训练

ms-swift 通过 swift rlhf 命令统一管理所有偏好对齐任务:

# DPO 训练
CUDA_VISIBLE_DEVICES=0 \
swift rlhf \
    --rlhf_type dpo \
    --model Qwen/Qwen3-7B-Instruct \
    --dataset hjh0119/shareAI-Llama3-DPO-zh-en-emoji \
    --tuner_type lora \
    --lora_rank 16 \
    --learning_rate 1e-5 \
    --output_dir output

DPO 数据集格式(每条样本需要 chosen 和 rejected 两个回答):

{
  "messages": [
    {"role": "system", "content": "你是一名客服助手"},
    {"role": "user", "content": "你们的退款政策是什么?"}
  ],
  "chosen": "我们支持7天无理由退款,您只需在APP内申请即可,通常1~3个工作日到账。",
  "rejected": "退款很麻烦,要看情况的。"
}

KTO 训练(只需好/坏标签,无需配对)

CUDA_VISIBLE_DEVICES=0 \
swift rlhf \
    --rlhf_type kto \
    --model Qwen/Qwen3-7B-Instruct \
    --dataset your_kto_data.jsonl \
    --tuner_type lora \
    --output_dir output

KTO 数据格式:

{
  "messages": [
    {"role": "user", "content": "问题内容"}
  ],
  "label": true
}

其中 label: true 表示这条回答是好的,label: false 表示是坏的。

5.6 GRPO 强化学习训练

GRPO 是目前最流行的强化微调方法,特别适合数学推理、代码生成等可以程序化验证正确性的任务:

# GRPO 数学推理训练(4 卡)
CUDA_VISIBLE_DEVICES=0,1,2,3 NPROC_PER_NODE=4 \
swift rlhf \
    --rlhf_type grpo \
    --model Qwen/Qwen3-7B-Instruct \
    --tuner_type lora \
    --use_vllm true \
    --vllm_mode colocate \
    --dataset AI-MO/NuminaMath-TIR#10000 \
    --reward_funcs accuracy \
    --num_generations 8 \
    --max_completion_length 2048 \
    --learning_rate 1e-6 \
    --output_dir output

GRPO 数据格式(query 列 + ground_truth 列):

{
  "messages": [
    {"role": "user", "content": "计算 2x + 3 = 11,求 x"}
  ],
  "ground_truth": "x = 4"
}

内置奖励函数accuracy(答案准确率)、format(格式正确率);也支持通过 --external_plugins 传入自定义奖励函数。


6. 推理与部署模块

6.1 四种推理引擎

graph LR
    ENGINE[推理引擎选择]
    ENGINE --> TF[Transformers]
    ENGINE --> VLLM[vLLM]
    ENGINE --> LMD[LMDeploy]
    ENGINE --> SGL[SGLang]
    TF --> T1[开发测试]
    TF --> T2[CPU 可用]
    VLLM --> V1[高并发生产]
    VLLM --> V2[PagedAttention]
    LMD --> L1[低延迟]
    LMD --> L2[移动端/边缘端]
    SGL --> S1[复杂推理链]
    SGL --> S2[批处理优化]
引擎启动参数吞吐量延迟适用场景
Transformers(默认)--infer_backend transformers开发测试,支持 CPU
vLLM--infer_backend vllm极高高并发在线服务
LMDeploy--infer_backend lmdeploy极低低延迟场景,边缘部署
SGLang--infer_backend sglang复杂推理链,长文本

6.2 交互式推理

# 使用 Transformers 引擎(开发/调试)
CUDA_VISIBLE_DEVICES=0 \
swift infer \
    --adapters output/checkpoint-xxx \
    --stream true \
    --temperature 0 \
    --max_new_tokens 2048

# merge LoRA 后使用 vLLM 加速
CUDA_VISIBLE_DEVICES=0 \
swift infer \
    --adapters output/checkpoint-xxx \
    --stream true \
    --merge_lora true \
    --infer_backend vllm \
    --vllm_max_model_len 8192 \
    --temperature 0 \
    --max_new_tokens 2048

注意:--adapters 指向 checkpoint 目录,ms-swift 会自动读取训练时保存的配置(包括基础模型路径、system prompt 等),无需重复指定。

6.3 部署为 OpenAI 兼容 API 服务

# 使用 vLLM 后端部署
CUDA_VISIBLE_DEVICES=0 \
swift deploy \
    --adapters output/checkpoint-xxx \
    --infer_backend vllm \
    --host 0.0.0.0 \
    --port 8000 \
    --vllm_max_model_len 8192

部署后自动提供 OpenAI 兼容 API,现有代码只需修改 base_url 即可接入:

import openai

client = openai.OpenAI(
    base_url="http://your-server:8000/v1",
    api_key="EMPTY"
)

response = client.chat.completions.create(
    model="your-model-name",
    messages=[{"role": "user", "content": "你好"}],
    temperature=0.1,
    max_tokens=512
)
print(response.choices[0].message.content)

6.4 Gradio 可视化应用

# 启动可视化对话界面
CUDA_VISIBLE_DEVICES=0 \
swift app \
    --model Qwen/Qwen3-7B-Instruct \
    --adapters output/checkpoint-xxx \
    --stream true \
    --infer_backend transformers \
    --lang zh

7. 评测模块

ms-swift 以 EvalScope 为评测后端,通过 swift eval 命令统一调用。

7.1 支持的评测数据集

类别数据集
综合能力CEval、MMLU、AGIEval、CMMLU
推理能力ARC_c、ARC_e、HellaSwag、WinoGrande
数学能力GSM8K、MATH、MATH-500
代码能力HumanEval、MBPP
中文能力C3、CLUEWSC2020、CHID
知识问答TriviaQA、NaturalQuestions

7.2 标准评测命令

# 评测微调后的模型
CUDA_VISIBLE_DEVICES=0 \
swift eval \
    --adapters output/checkpoint-xxx \
    --infer_backend lmdeploy \
    --eval_backend OpenCompass \
    --eval_dataset CEval,ARC_c,GSM8K

# 评测基础模型(作为基准对比)
CUDA_VISIBLE_DEVICES=0 \
swift eval \
    --model Qwen/Qwen3-7B-Instruct \
    --eval_dataset CEval,ARC_c,GSM8K

7.3 评测结果解读

评测完成后会生成详细报告,关键关注点:

  • 通用能力分数变化:微调后相比基础模型,CEval/ARC 等通用评测的分数下降不超过 5% 为正常范围;下降超过 10% 说明训练数据单一,需要补充通用数据
  • 领域评测分数:与基础模型对比,领域任务准确率提升幅度

8. 量化与导出模块

8.1 支持的量化方法

方法位宽体积压缩速度提升精度损失推荐场景
AWQ4-bit~75%2~3x极小首选,生产部署
GPTQ4-bit~75%1.5~2x第二选择
BNB4-bit~75%1.5x开发测试,易安装
FP88-bit~50%1.5~2x极小H100 等新硬件

8.2 AWQ 量化命令(推荐)

# AWQ 4-bit 量化
CUDA_VISIBLE_DEVICES=0 \
swift export \
    --adapters output/checkpoint-xxx \
    --merge_lora true \
    --quant_bits 4 \
    --quant_method awq \
    --dataset your_data.jsonl \
    --quant_n_samples 128 \
    --output_dir output/model_awq

8.3 推送到模型社区

# 推送到 ModelScope Hub
CUDA_VISIBLE_DEVICES=0 \
swift export \
    --adapters output/checkpoint-xxx \
    --push_to_hub true \
    --hub_model_id 'your-username/your-model-name' \
    --hub_token 'your-sdk-token' \
    --use_hf false

# 推送到 HuggingFace Hub
CUDA_VISIBLE_DEVICES=0 \
swift export \
    --adapters output/checkpoint-xxx \
    --push_to_hub true \
    --hub_model_id 'your-username/your-model-name' \
    --hub_token 'your-hf-token' \
    --use_hf true

8.4 合并 LoRA 权重

# 合并 LoRA 权重到基础模型(生产部署前推荐做)
swift export \
    --adapters output/checkpoint-xxx \
    --merge_lora true \
    --output_dir output/model_merged

9. Megatron-SWIFT 并行训练

对于超大模型(70B+)或需要极高训练吞吐量的场景,ms-swift 集成了 Megatron 并行技术。

9.1 支持的并行策略

并行策略缩写作用
张量并行TP将单层参数切分到多卡,减少单卡显存
流水线并行PP将模型层分组到不同节点,跨节点可用
序列并行SP序列维度并行,支持超长上下文
上下文并行CP长上下文并行注意力
专家并行EPMoE 模型专家层分布
数据并行DP传统数据并行,速度最快

9.2 Megatron-SWIFT 快速入门

# 安装额外依赖
pip install transformer_engine
pip install megatron_patch  # 模型转换工具

# 将 HuggingFace 模型转换为 Megatron 格式
swift export \
    --model Qwen/Qwen2.5-7B-Instruct \
    --to_mcore true \
    --torch_dtype bfloat16

# 使用 Megatron-SWIFT 训练(2 卡,张量并行)
PYTORCH_CUDA_ALLOC_CONF='expandable_segments:True' \
NPROC_PER_NODE=2 CUDA_VISIBLE_DEVICES=0,1 \
megatron sft \
    --load Qwen2.5-7B-Instruct-mcore \
    --dataset 'AI-ModelScope/alpaca-gpt4-data-zh#500' \
    --tensor_model_parallel_size 2 \
    --sequence_parallel true \
    --micro_batch_size 16 \
    --global_batch_size 16 \
    --lr 1e-5 \
    --max_epochs 1 \
    --save megatron_output/Qwen2.5-7B \
    --max_length 2048

推荐在 MoE 模型训练时使用 Megatron-SWIFT,通常可获得约 10 倍训练速度提升。


10. Web-UI 可视化界面

Web-UI 是 ms-swift 提供的零门槛可视化操作界面,基于 Gradio 实现,支持完整的训练-推理-评测-量化全链路。

10.1 启动 Web-UI

# 本地启动
swift web-ui

# 指定端口
swift web-ui --port 7860

# 允许外网访问
swift web-ui --host 0.0.0.0 --port 7860

启动后浏览器访问 http://localhost:7860

10.2 Web-UI 功能模块

Web-UI 包含以下主要功能页面:

  • 训练页(Training):选择模型、数据集、训练方法、配置超参数,一键启动训练,实时查看 Loss 曲线
  • 推理页(Inference):加载训练后的模型,进行交互式对话测试
  • 评测页(Evaluation):选择评测集,一键评测,查看各项指标
  • 量化页(Quantization):选择量化方法,一键量化并导出

适合场景:

  • 快速验证新想法,无需写命令行
  • 非技术用户(如领域专家)参与数据验证和效果评估
  • 演示展示

11. 环境安装

11.1 系统要求

组件最低要求推荐版本
Python3.93.11 / 3.12
PyTorch2.02.8.0
CUDA11.812.4 / 12.8
Transformers4.334.57.6+
操作系统Ubuntu 20.04Ubuntu 22.04

11.2 支持的硬件

硬件类型代表型号适用场景
NVIDIA 企业卡A100/H100/H200/A800大规模训练
NVIDIA 消费卡RTX 4090/3090/4080个人/小团队
NVIDIA 数据中心卡T4/V100/A10/A30云端训练
华为昇腾 NPUAscend 910B/910C国产替代
Apple SiliconM1/M2/M3/M4MPS 加速
CPU任意推理调试(不推荐训练)

11.3 安装命令

基础安装(最常用)

pip install ms-swift -U

国内镜像加速

pip install ms-swift -U -i https://pypi.tuna.tsinghua.edu.cn/simple

全能力安装(包含所有可选依赖)

pip install "ms-swift[all]" -U

源码安装(最新开发版)

git clone https://github.com/modelscope/ms-swift.git
cd ms-swift
# main 分支为 swift4.x
# 如需 swift3.x,请执行:git checkout release/3.12
pip install -e .
# 全能力
# pip install -e '.[all]'

11.4 官方 Docker 镜像

# swift 3.9.3(推荐生产使用)
docker pull modelscope-registry.cn-hangzhou.cr.aliyuncs.com/modelscope-repo/modelscope:ubuntu22.04-cuda12.8.1-py311-torch2.8.0-vllm0.11.0-modelscope1.31.0-swift3.9.3

# 启动容器
docker run -it --gpus all --ipc=host \
    -v /your/data:/data \
    modelscope-registry.cn-hangzhou.cr.aliyuncs.com/modelscope-repo/modelscope:ubuntu22.04-cuda12.8.1-py311-torch2.8.0-vllm0.11.0-modelscope1.31.0-swift3.9.3 \
    bash

11.5 按需安装可选依赖

# vLLM:高并发推理加速
pip install vllm>=0.5.1

# Flash Attention:训练加速,A100/H100 强烈推荐
pip install flash-attn --no-build-isolation

# DeepSpeed:多卡分布式训练
pip install deepspeed -U

# LMDeploy:低延迟推理
pip install lmdeploy

# 量化支持
pip install bitsandbytes>=0.41.0  # BNB 量化
pip install auto_gptq             # GPTQ 量化
pip install autoawq               # AWQ 量化

# 训练加速
pip install liger-kernel           # 算子融合

11.6 验证安装

# 检查 swift 版本
swift --help

# 检查 GPU
python -c "import torch; print(f'CUDA: {torch.cuda.is_available()}, GPU: {torch.cuda.get_device_name(0) if torch.cuda.is_available() else None}')"

# 快速冒烟测试(约 5 分钟)
CUDA_VISIBLE_DEVICES=0 \
swift sft \
    --model Qwen/Qwen3-4B-Instruct \
    --tuner_type lora \
    --dataset 'AI-ModelScope/alpaca-gpt4-data-zh#100' \
    --num_train_epochs 1 \
    --max_length 512 \
    --output_dir output/smoke_test

12. 根据资源选择训练方案

graph TD

START["我的显卡情况"]

START --> Q1{"单卡显存多少?"}

Q1 --> G8["8~12G"]
Q1 --> G16["16~24G"]
Q1 --> G40["40~80G"]
Q1 --> MULTI["多卡"]

G8 --> S1["QLoRA 方案"]
G16 --> S2["LoRA 单卡方案"]
G40 --> S3["LoRA 或 Full FT"]
MULTI --> S4["多卡 DeepSpeed 方案"]

S1 --> M1["7B 以内模型"]
S2 --> M2["7B~14B 模型"]
S3 --> M3["14B~70B 模型"]
S4 --> M4["任意规模模型"]

方案一:QLoRA(8~12G 显存)

适合:RTX 3060/4060/4060Ti,云端 T4

CUDA_VISIBLE_DEVICES=0 \
swift sft \
    --model Qwen/Qwen3-7B-Instruct \
    --tuner_type lora \
    --quant_bits 4 \
    --quant_method bnb \
    --lora_rank 8 \
    --lora_alpha 16 \
    --target_modules all-linear \
    --per_device_train_batch_size 1 \
    --gradient_accumulation_steps 16 \
    --max_length 1024 \
    --dataset your_data.jsonl \
    --output_dir output

方案二:LoRA 单卡(16~24G 显存)

适合:RTX 3090/4090,A10,云端 V100

CUDA_VISIBLE_DEVICES=0 \
swift sft \
    --model Qwen/Qwen3-7B-Instruct \
    --tuner_type lora \
    --lora_rank 16 \
    --lora_alpha 32 \
    --target_modules all-linear \
    --torch_dtype bfloat16 \
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 8 \
    --max_length 2048 \
    --dataset your_data.jsonl \
    --output_dir output

方案三:多卡 DeepSpeed(多张 A100/H100)

适合:大规模生产训练,14B~70B 模型

NPROC_PER_NODE=4 CUDA_VISIBLE_DEVICES=0,1,2,3 \
swift sft \
    --model Qwen/Qwen3-14B-Instruct \
    --tuner_type lora \
    --deepspeed zero2 \
    --lora_rank 16 \
    --lora_alpha 32 \
    --torch_dtype bfloat16 \
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 4 \
    --max_length 4096 \
    --dataset your_data.jsonl \
    --output_dir output

显存需求参考表

模型大小训练方式最低显存推荐显存
4BQLoRA6G8G
4BLoRA10G12G
7BQLoRA9G12G
7BLoRA16G24G
7BFull FT55G80G x2
14BLoRA28G40G
14BFull FT100G+80G x4
32BLoRA60G80G x2
70BLoRA120G+80G x4
72BLoRA120G+80G x4

命令速查表

操作命令
监督微调(SFT)swift sft --model ... --dataset ...
持续预训练(CPT)swift pt --model ... --dataset ...
偏好对齐(RLHF)swift rlhf --rlhf_type dpo/kto/...
强化学习(GRPO)swift rlhf --rlhf_type grpo ...
推理(交互式)swift infer --adapters ...
推理(批量)swift infer --adapters ... --val_dataset ...
部署 API 服务swift deploy --adapters ...
可视化对话swift app --model ...
模型评测swift eval --adapters ...
量化导出swift export --quant_bits 4 --quant_method awq
合并 LoRAswift export --merge_lora true
推送模型 Hubswift export --push_to_hub true
启动 Web-UIswift web-ui

下一篇预告第三篇将进入完整实战——自定义数据集格式规范、训练参数详解、训练过程监控、评测方法、部署上线,以及完整的常见问题排查和最佳实践清单。