[笔记][大模型学习]25-deep-seek与多卡训练deep seek与其他模型的区别大模型多卡训练 vllm多卡

多头注意力 ---> 多头潜在注意力

DeepSeekMoE. 提出了一种负载均衡的辅助无损策略。

预训练的成本会很高，需要服务器，高质量的数据。

DeepSeek不是自己做预训练。拿已有的大模型，进行迁移学习。

更高效的注意力机制（性能提升）
- 采用稀疏注意力机制（线性注意力），降低计算复杂度，尤其适合长文本处理。
- 引入了局部注意力（分块注意力）。优化长序列建模能力。增加长序列的上下文依赖性。
层次化建模
- 使用了分层Transformer结构。不同层级捕捉不同粒度特征，提升对复杂数据的理解能力。
动态计算路径
- 引入动态计算或条件计算。根据输入的复杂度动态调整计算资源，提升效率。
模型压缩与加速
- 采用知识蒸馏，量化技术，压缩模型规模，降低推理成本。

分布训练