DeepSeek 开源周发布 DeepEP 和 DeepGEMM

325 阅读10分钟
123

扫码加入AI交流群

获得更多技术支持和交流

(请注明自己的职业)

**

DeepSeek于2025年推出了两个开源项目:DeepEP和DeepGEMM,旨在提升AI模型的训练和推理效率。DeepEP是一个专为混合专家模型设计的通信库,优化了GPU间的计算分配,降低了延迟。DeepGEMM则专注于高效的FP8矩阵乘法,支持低精度计算,显著提高了计算速度和资源利用率。这两个工具的发布降低了AI模型的训练和推理成本,推动了AI技术的普及与应用,促进了开源社区的合作与创新。

**

在人工智能技术快速发展的背景下,开源项目的推出为研究者和开发者提供了更为高效的工具和资源。2025年2月26日,DeepSeek 开源周迎来了其第二弹,推出了专为混合专家模型(MoE)和专家并行(EP)设计的开源通信库——DeepEP。该库旨在提升大规模 AI 模型的训练和推理效率,犹如为 MoE 模型构建了一条“数据高速公路”,使得多个“专家”之间的协作更加迅速和高效。

与此同时,DeepSeek 还宣布了第三弹的开源项目——DeepGEMM,进一步丰富了其开源生态系统。这些新工具的发布不仅为 AI 开发者提供了更强大的支持,也推动了 AI 模型的创新与应用,助力于解决复杂的计算问题。

随着 DeepEP 和 DeepGEMM 的推出,DeepSeek 正在为 AI 领域的研究与应用开辟新的可能性,促进了技术的共享与协作,展现了开源社区在推动科技进步方面的重要作用。

DeepGEMM的概述及其特性

设计理念与目标

DeepGEMM是一个专为高效执行FP8(8位浮点数)通用矩阵乘法(GEMM)而设计的库,旨在通过细粒度缩放来提升性能。该库的设计灵感来源于DeepSeek-V3项目,专注于在NVIDIA Hopper架构的张量核心上实现高效的矩阵运算。DeepGEMM的主要目标是提供一种简洁、易于使用的解决方案,以便研究人员和开发者能够在深度学习应用中更好地利用低精度计算。

DeepGEMM的一个显著特点是其运行时编译能力。与传统的静态编译库不同,DeepGEMM采用轻量级的即时编译(JIT)模块,在运行时动态编译所有内核。这种设计不仅简化了安装过程,还提升了灵活性,使得用户可以在不同的硬件配置上快速适应。

性能表现

在性能方面,DeepGEMM的表现相当出色,甚至在某些情况下超越了专家调优的库。根据测试结果,DeepGEMM在多种矩阵形状下的计算速度显著提升。例如,在使用H800 GPU和CUDA 12.8的情况下,DeepGEMM在多个矩阵形状上的计算性能如下:

  • 对于64x2112x7168的矩阵,DeepGEMM实现了206 TFLOPS的计算能力,内存带宽为1688 GB/s,速度提升达2.7倍。
  • 在64x24576x1536的配置下,性能达到289 TFLOPS,内存带宽为2455 GB/s,速度提升为1.7倍。
  • 其他配置如64x32768x512和64x7168x16384等也显示了相似的性能优势。

这些数据表明,DeepGEMM在处理大规模矩阵运算时,能够有效利用硬件资源,提供高效的计算能力。

支持的功能与应用

DeepGEMM不仅支持常规的GEMM操作,还支持“专家混合”(Mix-of-Experts, MoE)分组GEMM。这一特性使得DeepGEMM在处理复杂模型时,能够更好地适应不同的计算需求。MoE模型通常需要在多个专家之间分配和汇总数据,DeepGEMM通过优化的分组策略,提升了这一过程的效率。

此外,DeepGEMM的设计考虑到了FP8张量核心的精度问题。为了解决FP8张量核心在累加过程中的不精确性,DeepGEMM采用了CUDA核心的两级累加(promotion)策略。这种方法通过在计算过程中引入更高精度的累加,确保了最终结果的准确性。

开发与安装

DeepGEMM的开发过程注重简洁性和易用性。用户只需满足以下基本要求即可开始使用:

  • 支持Hopper架构的GPU,sm_90a及以上。
  • Python 3.8或更高版本。
  • CUDA 12.3或更高版本(推荐使用CUDA 12.8以获得最佳性能)。
  • PyTorch 2.1或更高版本。
  • CUTLASS 3.6或更高版本(可通过Git子模块克隆)。

安装过程也相对简单,用户只需执行以下命令:

git clone --recursive git@github.com:deepseek-ai/DeepGEMM.git
python setup.py develop
python tests/test_jit.py
python tests/test_core.py
python setup.py install

安装完成后,用户可以在Python项目中导入deep_gemm模块,便于进行后续的矩阵运算。

未来发展与社区贡献

DeepGEMM的开发团队鼓励社区参与优化和扩展库的功能。尽管DeepGEMM在多个矩阵形状下表现出色,但在某些特定形状下的性能仍有提升空间。开发者可以通过提交优化请求(PR)来贡献自己的代码,帮助提升库的整体性能。

此外,DeepGEMM的开源性质使得其在学术研究和工业应用中具有广泛的适用性。随着越来越多的研究人员和开发者加入到DeepGEMM的使用和优化中,预计将会有更多的功能和改进被引入,从而推动FP8计算在深度学习领域的应用。

DeepGEMM的发布不仅为高效的矩阵运算提供了新的解决方案,也为低精度计算的研究提供了一个良好的平台。随着技术的不断发展,DeepGEMM有望在未来的深度学习应用中发挥更大的作用。

DeepEP与DeepGEMM对AI模型训练和推理效率的影响

DeepEP的技术优势与应用

DeepEP作为DeepSeek推出的开源专家并行通信库,专门针对Mixture-of-Experts(MoE)模型的训练和推理进行了优化。其主要创新在于高吞吐量和低延迟的通信内核设计,这使得在大规模AI工作负载中,GPU之间的计算分配变得更加高效。DeepEP通过优化所有对所有的GPU通信,解决了在多GPU环境中计算分配的瓶颈问题,显著提升了训练时间和推理效率。

DeepEP的设计考虑到了现代AI模型的复杂性,特别是在处理需要跨多个专家的任务时。其双内核架构允许在高吞吐量和低延迟之间灵活切换,适应不同的应用场景。这种灵活性使得DeepEP能够在各种负载条件下保持高效的性能表现,尤其是在需要快速响应的推理任务中。

例如,DeepEP在处理复杂的推理请求时,能够在毫秒级别内完成数据传输和计算,极大地降低了延迟。这种高效的通信机制不仅提升了模型的响应速度,还降低了整体的计算成本,使得AI模型在实际应用中更加可行。

DeepGEMM的性能提升与效率优化

DeepGEMM是DeepSeek推出的另一项重要技术,旨在通过高效的FP8通用矩阵乘法(GEMM)来提升AI模型的训练和推理效率。与传统的矩阵乘法库相比,DeepGEMM在性能和资源利用率上表现出色。其设计理念是通过简化代码和优化内存访问模式,来实现更高效的计算。

在性能测试中,DeepGEMM在多个矩阵形状下的计算速度显著提升。例如,在使用NVIDIA Hopper GPU和CUDA 12.8的情况下,DeepGEMM在64x2112x7168的矩阵上实现了206 TFLOPS的计算能力,内存带宽达到1688 GB/s,速度提升达2.7倍。这样的性能表现使得DeepGEMM在处理大规模矩阵运算时,能够有效利用硬件资源,提供高效的计算能力。

DeepGEMM的另一个显著特点是其对低精度计算的支持。通过采用FP8和FP32的混合精度计算,DeepGEMM在保证计算精度的同时,显著降低了内存使用和计算时间。这种混合精度的策略使得DeepGEMM能够在大多数情况下保持高效的计算性能,同时在关键操作中使用更高的精度,确保结果的准确性。

对AI训练和推理成本的影响

DeepEP和DeepGEMM的推出,标志着AI模型训练和推理成本的显著降低。传统的AI模型训练通常需要大量的计算资源和高昂的基础设施投入,而DeepSeek的这两项技术通过优化计算和通信效率,使得AI模型的训练和推理变得更加经济可行。

根据DeepSeek的分析,使用DeepEP和DeepGEMM的AI模型在训练成本上可以降低高达70%。例如,DeepSeek-R1模型的训练成本从最初的数百万美元降至仅需数十万美元,这一变化使得更多的企业和研究机构能够承担AI开发的费用,推动了AI技术的普及和应用。

此外,DeepEP的高效通信机制和DeepGEMM的优化计算能力,使得AI模型在推理阶段的成本也得到了显著降低。随着AI应用的不断扩展,企业在使用AI服务时的API调用成本也随之下降,这为AI技术的广泛应用提供了有力支持。

开源生态系统的推动作用

DeepEP和DeepGEMM的开源发布,不仅为AI开发者提供了高效的工具,也推动了整个AI生态系统的发展。开源的特性使得全球的开发者能够共同参与到技术的优化和扩展中,形成了良好的技术社区氛围。

例如,DeepGEMM的开发团队鼓励社区参与优化和扩展库的功能,开发者可以通过提交优化请求(PR)来贡献自己的代码,帮助提升库的整体性能。这种开放的合作模式,不仅提升了DeepGEMM的性能,也为低精度计算的研究提供了一个良好的平台。

随着越来越多的研究人员和开发者加入到DeepEP和DeepGEMM的使用和优化中,预计将会有更多的功能和改进被引入,从而推动AI技术的进一步发展。深度学习领域的研究者可以利用这些工具进行更高效的实验和开发,加速AI技术的创新。

对未来AI模型的影响

DeepEP和DeepGEMM的推出,预示着AI模型训练和推理效率的新时代。随着AI技术的不断进步,未来的AI模型将更加注重效率和成本的平衡,而不是单纯依赖于计算资源的增加。这一转变将促使更多的企业和研究机构探索新的AI应用场景,推动AI技术的广泛应用。

通过DeepEP和DeepGEMM,DeepSeek不仅展示了其在技术创新方面的实力,也为整个AI行业提供了新的思路和方向。随着更多高效工具的出现,AI开发者将能够在更低的成本下实现更高的性能,推动AI技术的持续进步和发展。

关注「AI千集」公众号

AI智能体自治社区

资讯汇总 aiqianji.com