首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
陈道一
掘友等级
AI算法工程师
Passion is doing stupid useless things.
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
7
文章 7
沸点 0
赞
7
返回
|
搜索文章
最新
热门
Quiet-STaR: Think before Speaking技术介绍
今天介绍的技术来自论文《Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking》,论文的作者Eric Zel
Megatron-LM学习:Pipline Parallelism的设计与实现
虽然说专业的人干专业的事情,但是算法工程师对框架原理有一定了解依然是必要的。这里有3个我认为重要的理由: 模型训练中遇到的大多数的问题是算法和工程的混合问题; 算法工程师需要能够独立开发一些小需求;
transformer模型相关的计算:参数量、FLOPs、训练显存、最大batch size
模型参数量计算 计算过程如下: 模型训练的并行方式分为3种,DP(data parallel) / TP(tensor parallel) / PP(pipline parallel),MoE模型在训
Batch Size杂谈
在OpenAI 2018年的一篇论文《An Empirical Model of Large-Batch Training》中就介绍了batch size的选择问题,论文中gradient noise
DeepSpeed-HybridEngine开发指南
2023-11-29写; 2023-12-06修改:增加适配模型开发流程说明;增加bug解决记录; Deepspeed-Chat是一个优秀且易用的PPO开源实现,实际在使用时HybridEngine开
MoE的scaling law
MoE的Scaling law 背景 MoE的scaling law建模出自论文 Unified Scaling Laws for Routed Language Models, DeepMind,
MoE(Mixture of Experts)的相关问题
MoE的主要作用是 **保持相同训练和推理资源的同时,通过增加模型的体积代价来提升模型学习效果**。
PPO经验碎片
PPO的过程就像所有的强化学习一样,从原始的采样分布出发,不断循环3个步骤:采样、奖励、优化(policy gradient)。结合提前训练好的人类偏好模型得到奖励信号,从而实现与人类偏好对齐的目的。
DeepSpeed原理(手写笔记)
前言 介绍了一下DeepSpeed的架构,以及部分重点内容的原理。 其实是看DeepSpeed源码时候随便写的一段笔记,没时间整理并且写的很潦草,所以不太想发,但是框架的代码读起来不容易,里面知识点确
混合精度Mixed Precision Training
神经网络的参数是用浮点精度表示的, 浮点精度的标准是IEEE 754 - Wikipedia,以下是一个FP16数值在内存中存储格式。 随着神经网络模型规模越来越大,如何减少模型占用的内存并且缩短训练
下一页
个人成就
文章被点赞
8
文章被阅读
17,691
掘力值
356
关注了
3
关注者
6
收藏集
0
关注标签
0
加入于
2023-08-08