首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
阿姆姆姆姆姆姆姆
掘友等级
算法工程师
庾信平生无萧瑟,暮年诗赋动江关。
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
45
文章 26
沸点 19
赞
45
返回
|
搜索文章
阿姆姆姆姆姆姆姆
关注了
稀土君
算法工程师
阿姆姆姆姆姆姆姆
关注了
李rumorr
算法工程师
阿姆姆姆姆姆姆姆
算法工程师
·
1年前
关注
计算机基础系列 —— 虚拟机代码翻译器(1)
文中提到的所有实现都可以参考:nand2tetris_sol,但是最好还是自己学习课程实现一遍,理解更深刻。 课程的 Part I: 被抽象成一块 Hack 器件,Part...
1
评论
分享
阿姆姆姆姆姆姆姆
算法工程师
·
1年前
关注
计算机基础系列 —— 汇编器
文中提到的所有实现都可以参考:nand2tetris_sol,但是最好还是自己学习课程实现一遍,理解更深刻。 之前的文章介绍了 Hacker 和汇编语言,如果要让汇编语言运...
3
评论
分享
阿姆姆姆姆姆姆姆
算法工程师
·
1年前
关注
计算机基础系列 —— CPU
文中提到的所有实现都可以参考:nand2tetris_sol,但是最好还是自己学习课程实现一遍,理解更深刻。 之前的文章里我们介绍了 Register、PC、RAM 和 A...
1
评论
分享
阿姆姆姆姆姆姆姆
算法工程师
·
1年前
关注
计算机基础系列 —— 汇编语言
文中提到的所有实现都可以参考:nand2tetris_sol,但是最好还是自己学习课程实现一遍,理解更深刻。 我们在之前的文章里,构建了 Register、RAM 和 AL...
1
评论
分享
阿姆姆姆姆姆姆姆
算法工程师
·
1年前
举报
程序员要遵循的健康第一原则:
当做一些事情会损害你的健康时,请思考第二遍:我是否要做这件事去损害我的健康!
等人赞过
分享
评论
10
阿姆姆姆姆姆姆姆
算法工程师
·
1年前
关注
计算机基础系列 —— 从 Nand 门、DFF 到 RAM
文中提到的所有实现都可以参考:nand2tetris_sol,但是最好还是自己学习课程实现一遍,理解更深刻。 之前的文章里实现了组合逻辑单元和 ALU,我们有了计算的能力。...
1
评论
分享
阿姆姆姆姆姆姆姆
算法工程师
·
1年前
关注
计算机基础系列 —— 从 Nand 门到 ALU(2)
文中提到的所有实现都可以参考:nand2tetris_sol,但是最好还是自己学习课程实现一遍,理解更深刻。 冯诺依曼架构 I(键盘)/O(屏幕) 负责指令的输入和结果的展...
2
评论
分享
阿姆姆姆姆姆姆姆
算法工程师
·
1年前
关注
计算机基础系列 —— 从 Nand 门到 ALU(1)
文中提到的所有实现都可以参考:nand2tetris_sol,但是最好还是自己学习课程实现一遍,理解更深刻。 基础逻辑门 基础逻辑门满足一些定律,都可以用真值表证明。 ...
1
评论
分享
阿姆姆姆姆姆姆姆
算法工程师
·
1年前
关注
RLAIF(0)—— DPO(Direct Preference Optimization) 原理与代码解读
之前的系列文章:介绍了 RLHF 里用到 Reward Model、PPO 算法。 但是这种传统的 RLHF 算法存在以下问题:流程复杂,需要多个中间模型对超参数很敏感,导...
1
评论
分享
阿姆姆姆姆姆姆姆
算法工程师
·
1年前
关注
DeepSpeed-Chat RLHF 阶段代码解读(2) —— PPO 阶段
数据处理 这里和 DeepSpeed-Chat RLHF 阶段代码解读(1) —— 奖励函数阶段 - 掘金 (juejin.cn) 处理基本一致,唯一的区别是输入不是 pr...
1
评论
分享
阿姆姆姆姆姆姆姆
算法工程师
·
1年前
关注
DeepSpeed-Chat RLHF 阶段代码解读(1) —— 奖励函数阶段
在 DeepSpeed-Chat RLHF 阶段代码解读(0) —— 原始 PPO 代码解读 - 掘金 (juejin.cn) 一文中,我们了解了 PPO 的原理和实现。本...
1
评论
分享
阿姆姆姆姆姆姆姆
算法工程师
·
1年前
关注
DeepSpeed-Chat RLHF 阶段代码解读(0) —— 原始 PPO 代码解读
为了理解 DeepSpeed-Chat RLHF 的 RLHF 全部过程,这个系列会分三篇文章分别介绍: 原始 PPO 代码解读RLHF 奖励函数代码解读RLHF PPO ...
2
评论
分享
阿姆姆姆姆姆姆姆
算法工程师
·
1年前
关注
深度强化学习(DRL)算法系列文章合集
这个系列介绍了常用的单智能体强化学习方法,也有些没有写到,比如 SAC,希望以后有时间可以回来补完。还有多智能体算法这个系列没有涉及,希望以后可以有时间谢谢多智能体算法。...
1
评论
分享
阿姆姆姆姆姆姆姆
算法工程师
·
1年前
关注
深度强化学习(DRL)算法 附录 6 —— NLP 回顾之预训练模型篇
Self-Attention 模型结构 上图架构以 batch_size 为 1,两个时间步的 X 为例子,计算过程如下: 位置编码 根据 self-attention 的...
1
评论
分享
阿姆姆姆姆姆姆姆
算法工程师
·
1年前
关注
深度强化学习(DRL)算法 附录 5 —— CV 基础回顾篇
因为强化学习里面有些状态是图片表示的,需要用 CNN 抽取信息,所以对 CNN 要有基础的了解。 卷积层 原理 1200 万像素,RGB 3通道图片 3600万元素,使用 ...
1
评论
分享
阿姆姆姆姆姆姆姆
算法工程师
·
1年前
关注
深度强化学习(DRL)算法 附录 4 —— 一些常用概念(KL 散度、最大熵 MDP etc.)
KL 散度 KL 散度是衡量两种概率模型分布相似性的一种尺度,KL 越大两种概率模型分布相似性越小。 信息量 2022 阿根廷夺冠(没有信息量,因为已经夺冠了) 2026 ...
1
评论
分享
阿姆姆姆姆姆姆姆
算法工程师
·
1年前
关注
深度强化学习(DRL)算法 5 —— Twin Delayed Deep Deterministic Policy Gradient (TD3)
回顾 深度强化学习(DRL)算法 4 —— Deep Deterministic Policy Gradient (DDPG) - 掘金 (juejin.cn) 文章里提到...
1
评论
分享
阿姆姆姆姆姆姆姆
算法工程师
·
1年前
关注
深度强化学习(DRL)算法 4 —— Deep Deterministic Policy Gradient (DDPG)
回顾 之前我们在 深度强化学习(DRL)算法 3 —— Deep Q-learning(DQN) - 掘金 (juejin.cn)定义了 DQN 的 Loss 函数: $$...
1
评论
分享
下一页
个人成就
文章被点赞
29
文章被阅读
10,933
掘力值
536
关注了
2
关注者
0
收藏集
0
关注标签
72
加入于
2016-09-12