[笔记][大模型学习]25-deep-seek与多卡训练

93 阅读2分钟
  • deep seek与其他模型的区别
  • 大模型多卡训练
  • vllm多卡推理

多头注意力 ---> 多头潜在注意力

DeepSeekMoE. 提出了一种负载均衡的辅助无损策略。

预训练的成本会很高,需要服务器,高质量的数据。

DeepSeek不是自己做预训练。拿已有的大模型,进行迁移学习。

deep seek大模型相比较其他开源模型的改进:

  • 更高效的注意力机制(性能提升)
    • 采用稀疏注意力机制(线性注意力),降低计算复杂度,尤其适合长文本处理。
    • 引入了局部注意力(分块注意力)。优化长序列建模能力。增加长序列的上下文依赖性。
  • 层次化建模
    • 使用了分层Transformer结构。不同层级捕捉不同粒度特征,提升对复杂数据的理解能力。
  • 动态计算路径
    • 引入动态计算或条件计算。根据输入的复杂度动态调整计算资源,提升效率。
  • 模型压缩与加速
    • 采用知识蒸馏,量化技术,压缩模型规模,降低推理成本。

训练方法

    1. 大规模高质量数据 使用更大规模,多样化的数据集,涵盖多语言,多领域,提升泛化性。通过数据清洗和去噪,提升数据质量。
  • 2.自监督与多任务学习 前期引入自监督学习,利用未标注的数据做预训练,提升模型的表征能力。采用多任务学习,联合优化多个任务,增强模型通用性。

  • 优化器与学习调度 使用LAMB,AdamW等优化器,适应大规模训练。动态调整学习率,余弦退火(warmup)策略,提升训练的稳定性。

  • 分布式训练加速 采用混合精度训练(fp16/fp32)和zero优化,减少显存占用,加速训练

  • 引入对抗训练与鲁棒性增强 引入对抗训练,提升模型对噪声和对抗样本的鲁棒性(稳定性) 通过数据增强和正则化技术,防止过拟合

分布训练

  • DDP

  • SeepSpeed

  • FSDP