首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
Justbin
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
Justbin
10月前
关注
基于Torch,测Qwen 3B训练的精度对比。
基于Torch,测Qwen 3B训练的精度对比。 排查所有的torch.ops,具体会定位到tensor idx 使用工具: https://github.com/hpca...
0
评论
分享
Justbin
10月前
关注
昇腾 hccl error9 解决
训推场景Atlas800T A2服务器多机间通信有问题,报错timeout,客户用hccn_tool测试了多机卡间能够互通,但是直接执行"dist.reduce_scatt...
0
评论
分享
Justbin
1年前
关注
模型权重转换OOM解决方案
Deepseek2-236B在2T内存的服务器上转全层的权重时会出现内存不够的报错,下面介绍一些可行的改进措施。 以hf2mg为例,下面是对loader_hf.py的一些修...
0
评论
分享
Justbin
1年前
关注
MindSpeed大模型训练前置知识之大并行加速算法
MindSpeed大模型训练前置知识之大并行加速算法 并行为什么对大模型训练这么重要? 从chatgpt大模型爆发,尤其因规模定律作用下,大模型展现出涌现能力,AI模型的天...
0
评论
分享
Justbin
1年前
关注
昇腾MindSpeed-LLM全流程实践及踩坑记录
[toc] 昇腾MindSpeed-LLM全流程实践及踩坑记录 我们都知道大模型训练是一个非常复杂的过程,大模型军备竞赛下如何控制训练成本成为各大模型训练方尤为关注的问题。...
0
评论
分享
个人成就
文章被阅读
1,606
掘力值
71
关注了
0
关注者
0
收藏集
0
关注标签
7
加入于
2024-12-20