首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
AI_Infra
掘友等级
我们专注于AI Infra,训练和推理引擎相关的内容分享,欢迎感兴趣的朋友和我们一起探索前沿AI技术。
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
5
文章 5
沸点 0
赞
5
返回
|
搜索文章
最新
热门
ATorch:蚂蚁开源PyTorch分布式训练扩展库,助你将硬件算力压榨到极致
2023年上半年,蚂蚁AI Infra团队开源了DLRover项目,致力于通过提升深度学习训练过程的智能性,来解决整个系统的提效问题,目前DLRover支持了蚂蚁深度学习系统中的自动资源动态优化与分布
使用 ChaosBlade 验证 DLRover 的弹性和容错的稳定性
DLRover 作为云原生的分布式训练系统,提供了弹性和容错功能来提升分布式训练的稳定性。为此我们使用 ChaosBlade 创建各种混沌实验来验证 DLRover 弹性容错的稳定性。
KDD 2023 | 蚂蚁“优化器三部曲”之 WSAM
蚂蚁 AI Infra 团队在深度学习最核心之一的优化器方向持续投入与创新,实现了 AI 训练节约资源、加速收敛、提升泛化等目标。我们将推出“优化器三部曲”系列,这是本系列的第一篇。
DLRover 在 K8s 上千卡级大模型训练稳定性保障的技术实践
DLRover 在 Kubernetes 上基于 Torch Elastic 开发了弹性训练功能,实现 PyTorch 分布式训练的自动容错和弹性。
Hybrid Embedding:蚂蚁集团万亿参数稀疏 CTR 模型解决方案
导读 稀疏 CTR 模型是用于预测点击率的一类深度学习模型的统称。通过处理高维稀疏特征数据实现高效的广告点击率预测,准确的 CTR 预测可以更好地进行广告投放决策,提升广告投放效果。在稀疏 CTR 模
VLDB2023|方略:一个交互式的规则研发系统
蚂蚁集团 AI Infra 团队针对上述问题,构建了一个交互式的规则研发系统——方略,提供了一种在规则研发过程中高效融入专家领域知识的解决方案。
【开源之夏 2023】欢迎报名 DLRover 社区项目!
开源之夏是由“开源软件供应链点亮计划”发起并长期支持的一项暑期开源活动,旨在鼓励在校学生积极参与开源软件的开发维护,促进优秀开源软件社区的蓬勃发展,培养和发掘更多优秀的开发者。 活动联合国内外各大开源
DLRover:云上自动扩缩容 DeepRec 分布式训练作业案例分享
DLRover 采用运行时优化思想来对分布式训练作业进行自动扩缩容。DLRover 首先让训练作业跑起来,然后监控训练作业所有节点的负载和整体训练性能,并根据监控指标来动态调整作业的资源,从而提升训练
DLRover:蚂蚁开源大规模智能分布式训练系统
本文整体介绍了 DLRover 的项目动机与核心能力,未来我们会发布一系列文章,来从同步/异步弹性训练,优化策略服务,多种集群和训练框架对接,策略定制开发等多个角度来介绍 DLRover 的更多细节,
Triton Meetup 2022
1 活动信息 “Triton Meetup 2022“活动将于 2022 年 11 月 19 日下午,在北京 BCos 共享办公(北京 WFC 环球金融中心办公店)举行。本次活动是 Triton 社区
下一页
个人成就
文章被点赞
10
文章被阅读
5,757
掘力值
228
关注了
0
关注者
6
收藏集
0
关注标签
0
加入于
2022-11-07