ZOMI酱

架构师 | 华为

移动视觉/三维视觉/AI框架架构师

赞

46

|

搜索文章

【AI系统】昇思MindSpore并行

本文将会介绍昇思MindSpore的并行训练技术，以及如何通过张量重排布和自动微分简化并行策略搜索，实现高效大模型训练。大模型的带来随着深度学习的发展，为了实现更高的准确率和更丰富的应用场景，训练

7月前
88
1
评论

【AI系统】昇思MindSpore并行

【AI系统】混合并行

混合并行（HybridParallel）是一种用于分布式计算的高级策略，它结合了数据并行和模型并行的优势，以更高效地利用计算资源，解决深度学习中的大模型训练问题。混合并行不仅能提高计算效率，还能在有限

7月前
193
1
评论

【AI系统】流水并行

在大模型的训练中，单个设备往往无法满足计算和存储需求，因此需要借助分布式训练技术。其中，模型并行（Model Parallelism, MP）是一种重要的方法。模型并行的基本思想是将模型的计算任务拆分

7月前
170
1
评论

【AI系统】张量并行

在大模型的训练中，单个设备往往无法满足计算和存储需求，因此需要借助分布式训练技术。其中，模型并行（Model Parallelism, MP）是一种重要的方法。模型并行的基本思想是将模型的计算任务拆分

7月前
109
1
评论

【AI系统】完全分片数据并行 FSDP

上一篇文章内容介绍了通用的数据并行和分布式数据并行，主要是对神经网络模型的输入数据 mini-batch 进行分布式处理。并且讨论了同步数据并行和异步数据并行的差异点，深入到 PyTorch AI 框

7月前
127
1
评论

【AI系统】完全分片数据并行 FSDP

【AI系统】数据并行

数据并行是一种广泛应用于分布式 AI 系统中的技术，旨在通过将数据集划分为多个子集并在不同计算节点上并行处理这些子集，以提高计算效率和速度。在大规模机器学习和深度学习训练过程中，数据并行可以显著加快模

7月前
149
1
评论

【AI系统】并行训练基本介绍

分布式训练是一种模型训练模式，它将训练工作量分散到多个工作节点上，从而大大提高了训练速度和模型准确性。虽然分布式训练可用于任何类型的 AI 模型训练，但将其用于大模型和计算要求较高的任务最为有利。本

7月前
92
1
评论

【AI系统】计算图挑战与未来

目前主流的 AI 框架都选择使用计算图来抽象神经网络计算表达，通过通用的数据结构（张量）来理解、表达和执行神经网络模型，通过计算图可以把 AI 系统化的问题形象地表示出来。计算图与框架关系计算图回

7月前
65
1
评论

【AI系统】动态图与静态图转换

从 TensorFlow、PyTorch，到 PaddlePaddle、MindSpore、MegEngine，主流的 AI 框架动静态图转换，经历了动静分离、动静结合到动静统一的发展过程。兼顾动态图

7月前
141
1
评论

【AI系统】动态图与静态图转换

【AI系统】计算图的控制流实现

计算图在数学上作为一个有向无环图（DAG，Directed Acyclic Graph），能够把神经网络模型的概念抽象出来作为同一描述，不过在计算机的编程中，会遇到很多 if、else、while、f

7月前
139
1
评论

【AI系统】计算图的控制流实现

个人成就

文章被点赞 87

文章被阅读 51,942

掘力值 1,932

加入于

2022-01-09