- deep seek与其他模型的区别
- 大模型多卡训练
- vllm多卡推理
多头注意力 ---> 多头潜在注意力
DeepSeekMoE. 提出了一种负载均衡的辅助无损策略。
预训练的成本会很高,需要服务器,高质量的数据。
DeepSeek不是自己做预训练。拿已有的大模型,进行迁移学习。
deep seek大模型相比较其他开源模型的改进:
- 更高效的注意力机制(性能提升)
- 采用稀疏注意力机制(线性注意力),降低计算复杂度,尤其适合长文本处理。
- 引入了局部注意力(分块注意力)。优化长序列建模能力。增加长序列的上下文依赖性。
- 层次化建模
- 使用了分层Transformer结构。不同层级捕捉不同粒度特征,提升对复杂数据的理解能力。
- 动态计算路径
- 引入动态计算或条件计算。根据输入的复杂度动态调整计算资源,提升效率。
- 模型压缩与加速
-
采用知识蒸馏,量化技术,压缩模型规模,降低推理成本。
-
训练方法
-
- 大规模高质量数据 使用更大规模,多样化的数据集,涵盖多语言,多领域,提升泛化性。通过数据清洗和去噪,提升数据质量。
-
2.自监督与多任务学习 前期引入自监督学习,利用未标注的数据做预训练,提升模型的表征能力。采用多任务学习,联合优化多个任务,增强模型通用性。
-
优化器与学习调度 使用LAMB,AdamW等优化器,适应大规模训练。动态调整学习率,余弦退火(warmup)策略,提升训练的稳定性。
-
分布式训练加速 采用混合精度训练(fp16/fp32)和zero优化,减少显存占用,加速训练
-
引入对抗训练与鲁棒性增强 引入对抗训练,提升模型对噪声和对抗样本的鲁棒性(稳定性) 通过数据增强和正则化技术,防止过拟合
分布训练
-
DDP
-
SeepSpeed
-
FSDP