第12课：高级训练优化技术到目前为止，我们已经学习了大型语言模型的核心架构、基础实现以及分布式训练方法。但要打造真正高效

到目前为止，我们已经学习了大型语言模型的核心架构、基础实现以及分布式训练方法。但要打造真正高效且实用的模型，我们还需要掌握一系列高级训练优化技术。这些技术不仅能提升模型性能，还能大幅降低计算资源需求，使模型部署和应用更加经济实用。

本课将探讨四个关键优化领域：梯度裁剪与正则化、参数高效微调、模型量化与知识蒸馏，以及模型剪枝与压缩。这些技术组合使用，可以在保持性能的同时显著减少模型的计算和存储需求。

1. 梯度裁剪与正则化

1.1 梯度裁剪原理与实现

训练大型语言模型时，我们经常面临梯度爆炸问题 - 梯度值变得异常大，导致训练不稳定甚至失败。梯度裁剪是应对这一问题的简单而有效的技术。

原理：梯度裁剪限制梯度的范数（通常是L2范数）不超过预设阈值。如果梯度范数超过阈值，则按比例缩小梯度，保持梯度方向不变。

想象你在陡峭的山坡上滑雪 - 梯度裁剪就像是在过陡的斜坡上自动减速，防止你失控冲下山去。

# PyTorch中的梯度裁剪实现
def clip_gradients(model, max_norm):
    """裁剪模型梯度"""
    # 计算所有参数梯度的总范数
    total_norm = 0
    for p in model.parameters():
        if p.grad is not None:
            param_norm = p.grad.data.norm(2)  # L2范数
            total_norm += param_norm.item() ** 2
    total_norm = total_norm ** 0.5
    
    # 如果总范数超过阈值，按比例缩小所有梯度
    clip_coef = max_norm / (total_norm + 1e-6)
    if clip_coef < 1:
        for p in model.parameters():
            if p.grad is not None:
                p.grad.data.mul_(clip_coef)
    
    return total_norm

# 在训练循环中使用
total_norm = clip_gradients(model, max_norm=1.0)

裁剪阈值的选择：

阈值选择取决于模型架构和任务：

对于大型Transformer模型，1.0是一个常见起点
BERT类模型常用0.5-1.0的阈值
GPT类模型可能使用0.1-1.0的阈值

通常通过观察训练稳定性和梯度范数分布来调整阈值。过小的阈值会过度限制更新幅度，而过大的阈值可能无法有效防止梯度爆炸。

1.2 L1/L2正则化与权重衰减

正则化是防止过拟合的关键技术。对于大型语言模型，适当的正则化可以改善泛化能力。

L1正则化：向损失函数添加参数绝对值之和

倾向于产生稀疏解（许多参数变为零）
有助于特征选择

L2正则化：向损失函数添加参数平方和

倾向于使所有参数值较小但非零
对于大型语言模型更为常用

权重衰减：在优化器中直接减小权重（与L2正则化数学上等价）

在Adam等自适应优化器中，权重衰减与L2正则化有细微区别
语言模型通常使用AdamW优化器（带权重衰减的Adam）

# AdamW优化器（带权重衰减的Adam）
optimizer = torch.optim.AdamW(
    model.parameters(),
    lr=1e-4,
    weight_decay=0.01  # 权重衰减系数
)

# 权重衰减与正则化的显式区别示例
for param_group in optimizer.param_groups:
    # 通常我们可能希望对偏置项不使用权重衰减
    if 'bias' in param_group['name']:
        param_group['weight_decay'] = 0.0  # 不对偏置使用权重衰减
    elif 'norm' in param_group['name']:  # 层归一化参数
        param_group['weight_decay'] = 0.0  # 不对归一化层使用权重衰减
    else:
        param_group['weight_decay'] = 0.01  # 对其他参数使用权重衰减

权重衰减的经验法则：

小型模型：0.01-0.1
大型语言模型：0.01-0.001
超大模型（如GPT-3级别）：0.1-0.01

1.3 高级正则化技术

除了基本的L1/L2正则化，还有一些专为深度神经网络设计的高级正则化技术：

1. Dropout变体：

标准Dropout随机屏蔽激活值，但在Transformer中有一些变体：

Attention Dropout：在注意力权重上应用dropout

# 注意力Dropout实现示例
attention_scores = torch.matmul(query, key.transpose(-1, -2))
attention_scores = attention_scores / math.sqrt(self.head_dim)
# 应用dropout到注意力分数
attention_probs = F.softmax(attention_scores, dim=-1)
attention_probs = self.dropout(attention_probs)  # 注意力dropout
context_layer = torch.matmul(attention_probs, value)

DropPath (Stochastic Depth) ：随机丢弃整个层的输出

class DropPath(nn.Module):
    """在训练时随机丢弃整个残差路径"""
    def __init__(self, drop_prob=0.0):
        super().__init__()
        self.drop_prob = drop_prob
        
    def forward(self, x):
        if self.drop_prob == 0. or not self.training:
            return x
        
        keep_prob = 1 - self.drop_prob
        # 对整个batch中的所有样本使用相同的掩码
        shape = (x.shape[0],) + (1,) * (x.ndim - 1)
        random_tensor = keep_prob + torch.rand(shape, dtype=x.dtype, device=x.device)
        random_tensor.floor_()  # 二值化掩码
        output = x.div(keep_prob) * random_tensor  # 缩放输出
        return output

2. 标签平滑：

标签平滑是一种通过"软化"目标标签防止模型过于自信的技术。它对于改善模型校准和泛化能力特别有效。

def cross_entropy_with_label_smoothing(logits, targets, smoothing=0.1):
    """带标签平滑的交叉熵损失"""
    log_probs = F.log_softmax(logits, dim=-1)
    
    # 创建平滑标签
    n_classes = logits.size(-1)
    # 分配1-smoothing给正确类别，smoothing/(n_classes-1)给其他类别
    smooth_targets = torch.full_like(log_probs, smoothing / (n_classes - 1))
    smooth_targets.scatter_(-1, targets.unsqueeze(-1), 1.0 - smoothing)
    
    # 计算损失
    loss = -torch.sum(log_probs * smooth_targets, dim=-1)
    return loss.mean()

3. 层归一化与权重初始化：

虽然不是严格意义上的正则化，但适当的归一化和初始化对模型训练稳定性至关重要：

Pre-LN与Post-LN：选择合适的层归一化位置可以影响训练稳定性
T5的RMSNorm：使用均方根归一化代替传统的层归一化
GPT-NeoX的旋转位置编码：更好的位置编码可以改善长序列建模

# RMSNorm实现示例
class RMSNorm(nn.Module):
    def __init__(self, dim, eps=1e-6):
        super().__init__()
        self.eps = eps
        self.weight = nn.Parameter(torch.ones(dim))
        
    def forward(self, x):
        # 计算均方根
        rms = torch.rsqrt(x.pow(2).mean(-1, keepdim=True) + self.eps)
        # 归一化并缩放
        return x * rms * self.weight

2. 参数高效微调技术

2.1 微调的挑战与传统方法

随着语言模型规模的增长，全参数微调变得计算昂贵且存储密集。一个拥有70亿参数的模型，全参数微调需要存储完整模型副本，占用28GB的GPU内存仅用于参数存储。

传统微调方法：

全参数微调：更新所有模型参数（资源密集）
层冻结：只更新顶层，冻结底层参数（性能可能受限）
线性探测：仅训练添加的分类头部（性能大幅下降）

参数高效微调(PEFT)提供了一种更高效的选择，只需调整少量参数就能在特定任务上适应预训练模型。

2.2 Adapter微调技术

Adapter是一种在Transformer层内插入小型可训练模块，同时冻结原始预训练参数的方法。

工作原理：

在每个Transformer层的前馈网络后添加Adapter层
Adapter层通常包含降维、激活和升维操作
连接残差以保持信息流通
只训练Adapter参数，冻结其他参数

class Adapter(nn.Module):
    """Transformer模型的Adapter层"""
    
    def __init__(self, hidden_size, adapter_size, dropout_rate=0.1):
        super().__init__()
        self.down_project = nn.Linear(hidden_size, adapter_size)
        self.up_project = nn.Linear(adapter_size, hidden_size)
        self.dropout = nn.Dropout(dropout_rate)
        self.act = nn.GELU()
        
        # 初始化 - 通常Adapter层初始接近零值
        nn.init.normal_(self.down_project.weight, std=1e-3)
        nn.init.normal_(self.up_project.weight, std=1e-3)
        nn.init.zeros_(self.down_project.bias)
        nn.init.zeros_(self.up_project.bias)
        
    def forward(self, hidden_states):
        # 残差连接
        residual = hidden_states
        
        # Adapter主路径
        x = self.down_project(hidden_states)
        x = self.act(x)
        x = self.dropout(x)
        x = self.up_project(x)
        
        # 残差连接
        output = x + residual
        return output

# 在Transformer层中集成Adapter
class TransformerLayerWithAdapter(nn.Module):
    def __init__(self, transformer_layer, hidden_size, adapter_size):
        super().__init__()
        self.layer = transformer_layer
        # 冻结原有参数
        for param in self.layer.parameters():
            param.requires_grad = False
            
        self.adapter = Adapter(hidden_size, adapter_size)
        
    def forward(self, hidden_states, attention_mask=None):
        # 原始Transformer层前向传播
        outputs = self.layer(hidden_states, attention_mask)
        
        # 应用Adapter
        adapted_outputs = self.adapter(outputs)
        return adapted_outputs

Adapter的优势：

参数效率高（通常仅添加0.5-3%的参数）
训练稳定性好（接近全参数微调性能）
可以为不同任务创建独立的Adapter，共享基础模型

2.3 LoRA(低秩适应)技术

LoRA(Low-Rank Adaptation)是一种基于矩阵分解的技术，通过添加低秩更新来调整预训练权重。

工作原理：

对于权重矩阵W，添加低秩更新ΔW = AB，其中A和B是低秩矩阵
在前向传播中，使用W + ΔW而非仅W
仅训练A和B，原始权重W保持冻结
通常将LoRA应用于注意力权重矩阵

class LoRALayer(nn.Module):
    """LoRA适应层"""
    
    def __init__(self, in_features, out_features, rank=8, alpha=16):
        super().__init__()
        self.rank = rank
        self.alpha = alpha
        
        # 低秩矩阵
        self.lora_A = nn.Parameter(torch.zeros(in_features, rank))
        self.lora_B = nn.Parameter(torch.zeros(rank, out_features))
        
        # 初始化 - A用高斯分布，B为零
        nn.init.normal_(self.lora_A, std=1/rank)
        nn.init.zeros_(self.lora_B)
        
        self.scaling = alpha / rank
        
    def forward(self, x):
        # 低秩更新
        return (x @ self.lora_A) @ self.lora_B * self.scaling

# 为预训练线性层添加LoRA
class LinearWithLoRA(nn.Module):
    def __init__(self, linear_layer, rank=8, alpha=16):
        super().__init__()
        self.linear = linear_layer
        # 冻结原有权重
        self.linear.weight.requires_grad = False
        if self.linear.bias is not None:
            self.linear.bias.requires_grad = False
            
        # 添加LoRA层
        self.lora = LoRALayer(
            linear_layer.in_features, 
            linear_layer.out_features,
            rank=rank,
            alpha=alpha
        )
        
    def forward(self, x):
        # 原始线性层 + LoRA更新
        return self.linear(x) + self.lora(x)

将LoRA应用于Transformer模型：

通常，我们会选择性地对模型中的某些矩阵应用LoRA，例如：

查询(Q)、键(K)、值(V)和输出矩阵
在注意力层中应用而非前馈网络
在解码器层中应用而非编码器层

LoRA的优势：

极高的参数效率（通常少于1%的参数）
可以在推理时与原始权重合并（无推理时间开销）
不需要改变模型架构或添加额外层

2.4 Prompt Tuning与P-tuning

除了修改模型参数，还可以通过优化输入提示来微调语言模型。

Prompt Tuning：

向输入添加可训练的"软提示"(soft prompt)词元
这些词元的嵌入是连续的参数向量（非离散词汇）
在训练期间，只有这些提示嵌入被更新

class PromptTuningModel(nn.Module):
    """Prompt Tuning实现"""
    
    def __init__(self, base_model, prompt_length=20, init_from_vocab=True):
        super().__init__()
        self.base_model = base_model
        # 冻结基础模型
        for param in self.base_model.parameters():
            param.requires_grad = False
            
        # 初始化软提示嵌入
        self.prompt_length = prompt_length
        embedding_dim = self.base_model.get_input_embeddings().weight.shape[1]
        
        if init_from_vocab:
            # 从词汇表中随机初始化
            vocab_size = self.base_model.get_input_embeddings().weight.shape[0]
            indices = torch.randint(0, vocab_size, (prompt_length,))
            self.prompt_embeddings = nn.Parameter(
                self.base_model.get_input_embeddings().weight[indices].clone()
            )
        else:
            # 随机初始化
            self.prompt_embeddings = nn.Parameter(
                torch.randn(prompt_length, embedding_dim) * 0.02
            )
    
    def forward(self, input_ids, attention_mask=None, **kwargs):
        batch_size = input_ids.shape[0]
        
        # 获取输入嵌入
        inputs_embeds = self.base_model.get_input_embeddings()(input_ids)
        
        # 创建软提示嵌入（为每个批次复制）
        prompt_embeds = self.prompt_embeddings.repeat(batch_size, 1, 1)
        
        # 连接[提示嵌入; 输入嵌入]
        combined_embeds = torch.cat([prompt_embeds, inputs_embeds], dim=1)
        
        # 更新注意力掩码
        if attention_mask is not None:
            prompt_mask = torch.ones(batch_size, self.prompt_length, 
                                    device=attention_mask.device)
            combined_mask = torch.cat([prompt_mask, attention_mask], dim=1)
        else:
            combined_mask = None
            
        # 前向传播
        outputs = self.base_model(
            inputs_embeds=combined_embeds,
            attention_mask=combined_mask,
            **kwargs
        )
        
        return outputs

P-tuning：

P-tuning是Prompt Tuning的变体，使用小型神经网络生成连续提示：

使用LSTM或MLP生成提示嵌入，而非直接优化嵌入
允许提示位置不连续（如在输入序列中间插入提示）
对较小模型（如BERT）比简单的Prompt Tuning更有效

2.5 不同PEFT方法的比较与选择

选择合适的参数高效微调方法取决于多种因素：

方法	参数量	训练速度	内存需求	推理开销	最佳应用场景
Adapter	中等(0.5-3%)	中等	中等	有额外推理计算	多任务设置，需要任务切换
LoRA	非常少(<1%)	快	低	可合并，无开销	资源严重受限，或需要多个微调版本
Prompt Tuning	极少(<0.1%)	非常快	极低	轻微额外计算	超大模型，资源极度受限
P-tuning	极少(<0.1%)	快	极低	轻微额外计算	较小模型，复杂任务

如何选择：

计算资源极度受限：选择Prompt Tuning或LoRA
需要接近全参数微调性能：优先考虑LoRA或Adapter
多任务学习：使用Adapter，每任务一个Adapter
超大模型(100B+参数) ：通常Prompt Tuning或LoRA最实用

实际应用中的组合策略：

实践中，我们常常组合使用这些技术：

LoRA + 8位量化：极大减少内存需求
Adapter + 知识蒸馏：提高微调效率
预先选择最佳层进行PEFT：某些层比其他层更重要

3. 量化与知识蒸馏

3.1 模型量化基础

量化是将模型参数从高精度（通常是32位浮点数）转换为低精度表示（如8位整数）的过程。

量化的核心思想：

使用更少的位来表示数值，通过映射关系保留原始值的近似：

浮点值 ≈ 缩放因子 × 整数值 + 零点偏移

FP32值 ≈ scale × (INT8值 - zero_point)

常见量化类型：

FP32→FP16/BF16：半精度浮点，精度损失小
FP32→INT8：8位整数，精度损失中等
FP32→INT4：4位整数，精度损失较大
混合精度量化：不同层使用不同精度

# 简单的INT8量化示例
def quantize_to_int8(tensor):
    """将FP32张量量化为INT8"""
    # 确定量化范围
    min_val = tensor.min().item()
    max_val = tensor.max().item()
    
    # 计算缩放因子和零点
    scale = (max_val - min_val) / 255.0
    zero_point = round(0 - min_val / scale)
    
    # 量化为INT8
    quantized = torch.round(tensor / scale + zero_point).clamp(0, 255).to(torch.uint8)
    
    return quantized, scale, zero_point

def dequantize_from_int8(quantized, scale, zero_point):
    """从INT8反量化为FP32"""
    return scale * (quantized.float() - zero_point)

3.2 训练后量化(PTQ)

训练后量化(Post-Training Quantization, PTQ)是指在模型完成训练后应用量化，无需重新训练。

PTQ工作流程：

收集模型激活统计信息（使用校准数据集）
基于统计信息确定最佳量化参数
使用这些参数量化模型
可选：进行微调减轻精度损失

# 使用PyTorch的量化API
import torch.quantization

# 准备模型进行量化
model_fp32 = TransformerModel()
model_fp32.eval()  # 量化需要在评估模式下进行

# 定义量化配置
qconfig = torch.quantization.get_default_qconfig('fbgemm')  # 服务器量化后端
model_fp32.qconfig = qconfig

# 插入观察者（收集统计信息）
model_prepared = torch.quantization.prepare(model_fp32)

# 校准模型（使用代表性数据）
with torch.no_grad():
    for data in calibration_dataloader:
        model_prepared(data)

# 转换为量化模型
model_int8 = torch.quantization.convert(model_prepared)

# 现在model_int8包含量化权重，可以进行推理

大型语言模型的PTQ挑战：

感知质量：某些层（如LayerNorm）对量化更敏感
异常值激活：语言模型的激活分布通常有长尾
量化感知操作：某些操作缺乏有效的整数实现

高级PTQ技术：

Smoothquant：调整激活的分布使其更易量化
GPTQ：基于Hessian的权重压缩，针对Transformer优化
AWQ：针对不同注意力头自适应量化

3.3 量化感知训练(QAT)

量化感知训练(Quantization-Aware Training, QAT)在训练过程中模拟量化效果，使模型适应量化导致的精度损失。

QAT工作流程：

在前向传播中模拟量化操作
反向传播时使用直通估计器(Straight-Through Estimator)
模型学习适应量化噪声
训练完成后应用真正的量化

class FakeQuantize(nn.Module):
    """量化感知训练中的伪量化模块"""
    
    def __init__(self, bits=8, symmetric=False):
        super().__init__()
        self.bits = bits
        self.symmetric = symmetric
        
    def forward(self, x):
        if not self.training:
            return x
            
        # 确定量化范围
        if self.symmetric:
            abs_max = torch.max(torch.abs(x)).detach()
            min_val, max_val = -abs_max, abs_max
        else:
            min_val, max_val = x.min().detach(), x.max().detach()
            
        # 计算缩放因子
        scale = (max_val - min_val) / (2**self.bits - 1)
        zero_point = 0 if self.symmetric else (0 - min_val / scale).round()
        
        # 前向传播：模拟量化/反量化过程
        x_q = torch.round(x / scale + zero_point)
        x_q = torch.clamp(x_q, 0, 2**self.bits - 1)
        
        # STE：前向模拟量化，反向传播使用原始梯度
        x_dq = (x_q - zero_point) * scale
        return x + (x_dq - x).detach()

# 在模型中使用
class QuantizedLinear(nn.Module):
    def __init__(self, in_features, out_features, bits=8):
        super().__init__()
        self.linear = nn.Linear(in_features, out_features)
        self.weight_quantizer = FakeQuantize(bits=bits, symmetric=True)
        self.activation_quantizer = FakeQuantize(bits=bits, symmetric=False)
        
    def forward(self, x):
        # 量化权重和输入
        w_q = self.weight_quantizer(self.linear.weight)
        x_q = self.activation_quantizer(x)
        
        # 使用量化值计算
        return F.linear(x_q, w_q, self.linear.bias)

QAT与PTQ的比较：

特性	QAT	PTQ
精度	更高	较低
训练成本	高（需要重新训练）	低（无需重新训练）
实现复杂度	高	中等
适用情景	追求最高精度	资源有限，快速部署

对于大型语言模型，通常从PTQ开始，只有在性能下降严重时才考虑QAT。

3.4 知识蒸馏原理

知识蒸馏是将一个大型模型（教师）的知识转移到更小模型（学生）的过程。

核心思想：

学生模型不仅学习真实标签，还学习教师模型的输出分布（"软目标"）：

教师模型提供的软目标包含丰富的分布信息
这些软目标比硬标签提供更多的知识
温度参数控制软目标的"软度"

def distillation_loss(student_logits, teacher_logits, labels, 
                     temperature=2.0, alpha=0.5):
    """计算知识蒸馏损失"""
    # 标准交叉熵损失
    hard_loss = F.cross_entropy(student_logits, labels)
    
    # 知识蒸馏损失
    soft_student = F.log_softmax(student_logits / temperature, dim=-1)
    soft_teacher = F.softmax(teacher_logits / temperature, dim=-1)
    soft_loss = F.kl_div(soft_student, soft_teacher, reduction='batchmean') * (temperature ** 2)
    
    # 组合损失
    return alpha * hard_loss + (1 - alpha) * soft_loss

3.5 蒸馏大型语言模型的策略

蒸馏大型语言模型面临特殊挑战：

教师模型过大，难以并行训练
教师与学生的词汇表可能不同
学生模型容量有限，难以捕获所有知识

有效的蒸馏策略：

选择性输出蒸馏：
- 仅蒸馏关键层的输出（如最后几层）
- 关注特定任务相关的知识
渐进式知识转移：
- 使用多个逐渐变小的模型作为中间教师
- 逐步蒸馏减轻知识差距
多教师蒸馏：
- 使用多个专家教师模型
- 集成多个教师的知识
序列级蒸馏：
- 使用教师模型生成高质量样本
- 学生模型在这些样本上训练

def sequence_level_distillation(teacher_model, student_model, tokenizer, prompts):
    """序列级蒸馏：使用教师生成高质量样本"""
    # 生成训练样本
    training_samples = []
    
    for prompt in prompts:
        # 教师模型生成高质量输出
        with torch.no_grad():
            teacher_input = tokenizer(prompt, return_tensors="pt").to(device)
            teacher_output = teacher_model.generate(
                **teacher_input,
                max_length=100,
                num_return_sequences=5,  # 每个提示生成多个样本
                temperature=0.7,
                do_sample=True
            )
            
            # 解码生成的文本
            teacher_texts = tokenizer.batch_decode(teacher_output, skip_special_tokens=True)
            
            # 添加到训练样本
            for text in teacher_texts:
                training_samples.append(text)
    
    # 使用生成的样本训练学生模型（自回归目标）
    # ...训练学生模型的代码...

蒸馏在大型语言模型中的应用：

TinyBERT：多层次蒸馏BERT模型
DistilGPT/DistilBERT：减少层数，保持宽度
MiniLM：关注注意力矩阵的蒸馏
LLM.int8()/Bitsandbytes：将蒸馏与量化结合

4. 模型剪枝与压缩

4.1 结构化与非结构化剪枝

剪枝是通过移除模型中不重要的连接或部分来减小模型大小的技术。

两种主要剪枝方法：

非结构化剪枝：
- 移除单个权重（使其为0）
- 保持整体架构不变
- 需要特殊硬件/软件支持稀疏计算
结构化剪枝：
- 移除整个结构单元（如注意力头、神经元、层）
- 产生更小的密集模型
- 无需特殊硬件支持

# 简单的权重幅度剪枝示例
def magnitude_pruning(model, pruning_ratio=0.3):
    """基于权重幅度的非结构化剪枝"""
    for name, module in model.named_modules():
        if isinstance(module, nn.Linear):
            # 获取权重
            weight = module.weight.data
            
            # 计算阈值（按幅度）
            threshold = torch.quantile(torch.abs(weight).flatten(), pruning_ratio)
            
            # 创建掩码
            mask = torch.abs(weight) > threshold
            
            # 应用掩码（小于阈值的权重置零）
            module.weight.data *= mask

4.2 基于重要性的权重剪枝

在确定哪些参数可以剪枝时，我们需要量化每个参数的"重要性"。

常见的重要性标准：

幅度重要性：简单地使用权重绝对值
梯度重要性：基于损失对权重的梯度
二阶重要性：使用Hessian信息（计算密集）
激活重要性：基于权重对激活的影响

# 基于梯度重要性的剪枝
def gradient_importance_pruning(model, dataloader, pruning_ratio=0.3):
    """使用梯度信息确定重要性的剪枝"""
    # 确保模型处于训练模式
    model.train()
    
    # 收集梯度重要性
    importance_scores = {}
    
    # 准备收集梯度
    for name, param in model.named_parameters():
        if 'weight' in name:
            param.grad_acc = torch.zeros_like(param)
    
    # 计算多个批次的梯度
    num_batches = 10
    criterion = nn.CrossEntropyLoss()
    
    for i, batch in enumerate(dataloader):
        if i >= num_batches:
            break
            
        outputs = model(**batch)
        loss = criterion(outputs.logits, batch['labels'])
        
        # 反向传播
        loss.backward()
        
        # 累积梯度的绝对值
        for name, param in model.named_parameters():
            if 'weight' in name and param.grad is not None:
                param.grad_acc += torch.abs(param.grad)
                
        # 清零梯度
        model.zero_grad()
    
    # 基于累积梯度进行剪枝
    for name, param in model.named_parameters():
        if 'weight' in name:
            # 计算重要性分数
            importance = param.grad_acc / num_batches
            
            # 计算阈值
            threshold = torch.quantile(importance.flatten(), pruning_ratio)
            
            # 创建掩码
            mask = importance > threshold
            
            # 应用掩码
            param.data *= mask

4.3 神经架构搜索与压缩

神经架构搜索(NAS)是自动寻找最佳模型架构的过程，可以与压缩技术结合以找到高效的小型架构。

NAS在语言模型中的应用：

搜索空间定义：
- Transformer块数量
- 注意力头数量
- 隐藏层维度
- 前馈网络大小
搜索策略：
- 进化算法
- 强化学习
- 梯度优化（如DARTS）
评估指标：
- 准确率与模型大小的权衡
- 推理速度
- 内存占用

# 简化的神经架构搜索示例
def evaluate_architecture(config):
    """评估一个模型架构配置"""
    # 创建模型
    model = TransformerModel(
        num_layers=config['num_layers'],
        hidden_size=config['hidden_size'],
        num_heads=config['num_heads'],
        ffn_dim=config['ffn_dim']
    )
    
    # 训练和评估模型
    accuracy = train_and_evaluate(model, train_data, val_data)
    
    # 计算模型大小（参数数量）
    model_size = sum(p.numel() for p in model.parameters())
    
    # 计算综合得分（权衡准确率和大小）
    score = accuracy - config['size_penalty'] * model_size
    
    return score

# 使用进化算法进行搜索
def evolutionary_search(population_size=20, generations=50):
    """使用进化算法进行架构搜索"""
    # 初始化种群
    population = []
    for _ in range(population_size):
        config = {
            'num_layers': random.randint(2, 12),
            'hidden_size': random.choice([256, 512, 768, 1024]),
            'num_heads': random.choice([4, 8, 12, 16]),
            'ffn_dim': random.choice([1024, 2048, 4096]),
            'size_penalty': 1e-7
        }
        score = evaluate_architecture(config)
        population.append((config, score))
    
    # 进行多代进化
    for gen in range(generations):
        # 选择顶部配置
        population.sort(key=lambda x: x[1], reverse=True)
        parents = population[:population_size//2]
        
        # 生成新一代
        new_population = parents.copy()
        
        while len(new_population) < population_size:
            # 随机选择父母
            parent1, _ = random.choice(parents)
            parent2, _ = random.choice(parents)
            
            # 交叉
            child = {}
            for key in parent1:
                child[key] = parent1[key] if random.random() < 0.5 else parent2[key]
            
            # 变异
            if random.random() < 0.2:
                key = random.choice(list(child.keys()))
                if key == 'num_layers':
                    child[key] = max(1, child[key] + random.randint(-2, 2))
                elif key == 'hidden_size':
                    child[key] = max(128, child[key] + random.choice([-128, 0, 128]))
                # ...类似地处理其他参数
            
            # 评估新配置
            score = evaluate_architecture(child)
            new_population.append((child, score))
        
        population = new_population
        
    # 返回最佳架构
    population.sort(key=lambda x: x[1], reverse=True)
    return population[0][0]

4.4 模型压缩的整体策略

在实际应用中，通常将多种压缩技术结合使用，而不是仅依赖单一方法。

整合压缩策略的工作流：

预训练大型模型（或使用现有模型）
应用剪枝消除冗余
知识蒸馏到更小的架构
训练后量化进一步减小大小
特定硬件优化（如TensorRT, ONNX）

压缩技术的组合应用：

def compress_llm_pipeline(teacher_model, student_config):
    """大型语言模型压缩流水线"""
    # 步骤1: 结构化剪枝教师模型
    pruned_teacher = structured_pruning(
        teacher_model, 
        pruning_ratio=0.3,
        method='attention_head'  # 剪除注意力头
    )
    
    # 步骤2: 创建更小的学生模型
    student_model = create_student_model(student_config)
    
    # 步骤3: 知识蒸馏
    student_model = distill_knowledge(
        pruned_teacher,
        student_model,
        temperature=2.0,
        distill_layers=[True, False, True, False]  # 只蒸馏部分层
    )
    
    # 步骤4: 使用少量数据微调学生
    student_model = finetune_student(student_model, finetune_data)
    
    # 步骤5: 应用训练后量化
    quantized_model = quantize_model(
        student_model,
        bits=8,
        quantize_method='ptq'
    )
    
    return quantized_model

不同压缩策略的适用场景：

场景	推荐压缩方法
移动设备部署	知识蒸馏 + INT8量化 + 架构搜索
服务器部署，需要低延迟	结构化剪枝 + INT8量化
服务器部署，需要高吞吐量	知识蒸馏 + 模型并行
极度资源受限环境	极端量化(INT4/INT2) + 剪枝

总结

本课我们探讨了四种关键的高级训练优化技术，它们共同为大型语言模型的高效训练和部署提供了解决方案：

梯度裁剪与正则化：通过控制梯度范数和引入适当的正则化项，提高训练稳定性和模型泛化能力，为后续优化奠定基础。
参数高效微调技术：使用Adapter、LoRA和Prompt Tuning等方法，以极小的参数量（通常<1%）高效适应预训练模型到特定任务，大幅降低计算和存储需求。
量化与知识蒸馏：通过量化将高精度参数转换为低精度表示，以及使用知识蒸馏将大模型的能力迁移到小模型中，在保持性能的同时显著减小模型大小。
模型剪枝与压缩：通过识别和移除不重要的模型组件，以及将多种压缩技术整合应用，创建高度优化的轻量级模型。

这些技术不是孤立的，而是相互补充的。在实际应用中，我们通常会根据具体需求组合使用多种优化方法。随着大型语言模型继续扩展，这些高级优化技术将变得越来越重要，使我们能够在有限资源约束下充分发挥模型潜力。

练习

实现梯度裁剪，并在一个简单的Transformer模型上比较不同裁剪阈值（0.1, 1.0, 5.0）对训练稳定性的影响。
为预训练语言模型实现LoRA微调，并与全参数微调比较性能差异和资源需求。
对一个预训练BERT模型应用INT8训练后量化，评估量化前后的准确率变化，并测量推理速度提升。
实现一个简单的知识蒸馏流程，从一个12层BERT教师模型蒸馏到6层BERT学生模型，比较蒸馏前后的性能。
设计一个集成多种优化技术的压缩流水线，对预训练语言模型应用剪枝、蒸馏和量化，分析每一步的模型大小变化和性能影响。