首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
阿姆姆姆姆姆姆姆
掘友等级
算法工程师
庾信平生无萧瑟,暮年诗赋动江关。
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
45
文章 26
沸点 19
赞
45
返回
|
搜索文章
最新
热门
DeepSpeed-Chat RLHF 阶段代码解读(1) —— 奖励函数阶段
在 DeepSpeed-Chat RLHF 阶段代码解读(0) —— 原始 PPO 代码解读 - 掘金 (juejin.cn) 一文中,我们了解了 PPO 的原理和实现。本篇文章,我们来看 RLHF
DeepSpeed-Chat RLHF 阶段代码解读(0) —— 原始 PPO 代码解读
为了理解 DeepSpeed-Chat RLHF 的 RLHF 全部过程,这个系列会分三篇文章分别介绍: 原始 PPO 代码解读RLHF 奖励函数代码解读RLHF PPO 代码解读 这是系列的第一篇
深度强化学习(DRL)算法系列文章合集
这个系列介绍了常用的单智能体强化学习方法,也有些没有写到,比如 SAC,希望以后有时间可以回来补完。还有多智能体算法这个系列没有涉及,希望以后可以有时间谢谢多智能体算法。
深度强化学习(DRL)算法 附录 6 —— NLP 回顾之预训练模型篇
Self-Attention 模型结构 上图架构以 batch_size 为 1,两个时间步的 X 为例子,计算过程如下: 位置编码 根据 self-attention 的模型结构,改变 X 的输入顺
深度强化学习(DRL)算法 附录 5 —— CV 基础回顾篇
因为强化学习里面有些状态是图片表示的,需要用 CNN 抽取信息,所以对 CNN 要有基础的了解。 卷积层 原理 1200 万像素,RGB 3通道图片 3600万元素,使用 FC(全连接) size 1
深度强化学习(DRL)算法 附录 4 —— 一些常用概念(KL 散度、最大熵 MDP etc.)
KL 散度 KL 散度是衡量两种概率模型分布相似性的一种尺度,KL 越大两种概率模型分布相似性越小。 信息量 2022 阿根廷夺冠(没有信息量,因为已经夺冠了) 2026 阿根廷夺冠(信息量很大) 比
深度强化学习(DRL)算法 5 —— Twin Delayed Deep Deterministic Policy Gradient (TD3)
回顾 深度强化学习(DRL)算法 4 —— Deep Deterministic Policy Gradient (DDPG) - 掘金 (juejin.cn) 文章里提到了 DDPG 存在的三个缺点
深度强化学习(DRL)算法 4 —— Deep Deterministic Policy Gradient (DDPG)
回顾 之前我们在 深度强化学习(DRL)算法 3 —— Deep Q-learning(DQN) - 掘金 (juejin.cn)定义了 DQN 的 Loss 函数: $$Loss = (r + \g
深度强化学习(DRL)算法 3 —— Deep Q-learning(DQN)
回顾 之前的文章 深度强化学习(DRL)算法 附录 3 —— 蒙特卡洛方法(MC)和时序差分(TD) - 掘金 (juejin.cn) 介绍了 Q-learning,这篇文章我们介绍把 deep le
深度强化学习(DRL)算法 附录 3 —— 蒙特卡洛方法(MC)和时序差分(TD)
状态转移概率一般是不知道的,所以我们需要 model-free 的方法,如 MC 和 TD 蒙特卡洛方法(MC) $\varepsilon$-贪心策略: 贪心动作选择概率:1 - $\varepsil
下一页
个人成就
文章被点赞
29
文章被阅读
9,029
掘力值
533
关注了
2
关注者
0
收藏集
0
关注标签
72
加入于
2016-09-12