首页
首页
BOT
沸点
课程
直播
活动
AI刷题
NEW
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
猛猿
掘友等级
🏆掘金签约作者|人工智能方向
填坑工程师。 分享技术笔记,也分享转行故事。希望朋友们在学习和写码的道路上不孤单。
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
41
文章 41
沸点 0
赞
41
返回
|
搜索文章
最新
热门
图解大模型训练之:数据并行下篇( DeepSpeed ZeRO,零冗余优化)
在上篇介绍中,通讯负载不均的优化我们解释过了,但还遗留了一个显存开销问题:数据并行中,每个GPU上都复制了一份完整模型,当模型变大时,很容易打爆GPU的显存,那要怎么办呢?
图解大模型训练之:数据并行上篇(DP, DDP与ZeRO)
今天我们来介绍一种应用最广泛,最易于理解的并行范式:数据并行。 数据并行的核心思想是:在各个GPU上都拷贝一份完整模型,各自吃一份数据,算一份梯度,最后对梯度进行累加来更新整体模型。
图解大模型训练之:流水线并行(Pipeline Parallelism),以Gpipe为例
本篇文章将探索流水线并行,经典的流水线并行范式有Google推出的Gpipe,和微软推出的PipeDream。两者的推出时间都在2019年左右,大体设计框架一致。主要差别为:在梯度更新上,Gpipe是
CV大模型系列之:打败VIT?Swin Transformer是怎么做到的
一文详细图解Swin Transformer架构,探索移动窗口attention、patch merging、patch partition等技术细节
CV大模型系列之:GAN,博弈论下的一个实例
对比扩散模型DDPM,配合详细的图例,具象化地数学原理解读,带大家从博弈论双人游戏的视角,重新了解一次GAN
CV大模型系列之:DALLE2,OpenAI文生图代表作解读
在CV大模型系列中,我们介绍了扩散模型的运作原理介绍了Transformer架构下做CV任务的方法,也介绍了多模态大模型CLIP。有了这么多的前置知识,今天,我们终于可以来一探文生图模型的奥秘了。
CV大模型系列之:MoCo v1,利用对比学习在CV任务上做无监督训练
MoCo v1(Momentum Contrast,v1版),一种在CV任务上,通过对比学习(contrast learning)做无监督(unsupervised)训练的方法
CV大模型系列之:MAE,实现像素级图像重建
本文将介绍,如何基于Transformer架构,借鉴Bert的基本思想,做基于像素级别的图像重建任务。
CV大模型系列之:多模态经典之作CLIP,探索图文结合的奥秘
在这篇文章中,我们将来解读OpenAI提出的多模态模型:CLIP。它是多模态领域的经典之作,后续也作为基础模型在DALLE2,Stable Diffusion中起到重要作用
CV大模型系列之:扩散模型基石DDPM(源码解读与实操篇)
终于来到扩散模型DDPM系列的最后一篇:源码解读了。本文将配合详细的图例,来为大家解读DDPM的模型架构和训练方式的代码实现。
下一页
个人成就
文章被点赞
261
文章被阅读
71,572
掘力值
1,600
关注了
10
关注者
268
收藏集
0
关注标签
12
加入于
2023-03-28