阿姆姆姆姆姆姆姆

算法工程师

庾信平生无萧瑟，暮年诗赋动江关。

赞

45

|

搜索文章

关注了

算法工程师

关注了

算法工程师

算法工程师

·

1年前

计算机基础系列 —— 虚拟机代码翻译器（1）

文中提到的所有实现都可以参考：nand2tetris_sol，但是最好还是自己学习课程实现一遍，理解更深刻。课程的 Part I: 被抽象成一块 Hack 器件，Part...

1

评论

算法工程师

·

1年前

计算机基础系列 —— 汇编器

文中提到的所有实现都可以参考：nand2tetris_sol，但是最好还是自己学习课程实现一遍，理解更深刻。之前的文章介绍了 Hacker 和汇编语言，如果要让汇编语言运...

3

评论

算法工程师

·

1年前

计算机基础系列 —— CPU

文中提到的所有实现都可以参考：nand2tetris_sol，但是最好还是自己学习课程实现一遍，理解更深刻。之前的文章里我们介绍了 Register、PC、RAM 和 A...

1

评论

算法工程师

·

1年前

计算机基础系列 —— 汇编语言

文中提到的所有实现都可以参考：nand2tetris_sol，但是最好还是自己学习课程实现一遍，理解更深刻。我们在之前的文章里，构建了 Register、RAM 和 AL...

1

评论

算法工程师

·

程序员要遵循的健康第一原则：

当做一些事情会损害你的健康时，请思考第二遍：我是否要做这件事去损害我的健康！

等人赞过

评论

10

算法工程师

·

1年前

计算机基础系列 —— 从 Nand 门、DFF 到 RAM

文中提到的所有实现都可以参考：nand2tetris_sol，但是最好还是自己学习课程实现一遍，理解更深刻。之前的文章里实现了组合逻辑单元和 ALU，我们有了计算的能力。...

1

评论

算法工程师

·

1年前

计算机基础系列 —— 从 Nand 门到 ALU（2）

文中提到的所有实现都可以参考：nand2tetris_sol，但是最好还是自己学习课程实现一遍，理解更深刻。冯诺依曼架构 I(键盘)/O（屏幕）负责指令的输入和结果的展...

2

评论

算法工程师

·

1年前

计算机基础系列 —— 从 Nand 门到 ALU（1）

文中提到的所有实现都可以参考：nand2tetris_sol，但是最好还是自己学习课程实现一遍，理解更深刻。基础逻辑门基础逻辑门满足一些定律，都可以用真值表证明。 ...

1

评论

算法工程师

·

1年前

RLAIF（0）—— DPO（Direct Preference Optimization）原理与代码解读

之前的系列文章：介绍了 RLHF 里用到 Reward Model、PPO 算法。但是这种传统的 RLHF 算法存在以下问题：流程复杂，需要多个中间模型对超参数很敏感，导...

1

评论

算法工程师

·

1年前

DeepSpeed-Chat RLHF 阶段代码解读（2） —— PPO 阶段

数据处理这里和 DeepSpeed-Chat RLHF 阶段代码解读（1） —— 奖励函数阶段 - 掘金 (juejin.cn) 处理基本一致，唯一的区别是输入不是 pr...

1

评论

算法工程师

·

1年前

DeepSpeed-Chat RLHF 阶段代码解读（1） —— 奖励函数阶段

在 DeepSpeed-Chat RLHF 阶段代码解读（0） —— 原始 PPO 代码解读 - 掘金 (juejin.cn) 一文中，我们了解了 PPO 的原理和实现。本...

1

评论

算法工程师

·

1年前

DeepSpeed-Chat RLHF 阶段代码解读（0） —— 原始 PPO 代码解读

为了理解 DeepSpeed-Chat RLHF 的 RLHF 全部过程，这个系列会分三篇文章分别介绍：原始 PPO 代码解读RLHF 奖励函数代码解读RLHF PPO ...

2

评论

算法工程师

·

1年前

深度强化学习（DRL）算法系列文章合集

这个系列介绍了常用的单智能体强化学习方法，也有些没有写到，比如 SAC，希望以后有时间可以回来补完。还有多智能体算法这个系列没有涉及，希望以后可以有时间谢谢多智能体算法。...

1

评论

算法工程师

·

1年前

深度强化学习（DRL）算法附录 6 —— NLP 回顾之预训练模型篇

Self-Attention 模型结构上图架构以 batch_size 为 1，两个时间步的 X 为例子，计算过程如下：位置编码根据 self-attention 的...

1

评论

算法工程师

·

1年前

深度强化学习（DRL）算法附录 5 —— CV 基础回顾篇

因为强化学习里面有些状态是图片表示的，需要用 CNN 抽取信息，所以对 CNN 要有基础的了解。卷积层原理 1200 万像素，RGB 3通道图片 3600万元素，使用 ...

1

评论

算法工程师

·

1年前

深度强化学习（DRL）算法附录 4 —— 一些常用概念（KL 散度、最大熵 MDP etc.）

KL 散度 KL 散度是衡量两种概率模型分布相似性的一种尺度，KL 越大两种概率模型分布相似性越小。信息量 2022 阿根廷夺冠（没有信息量，因为已经夺冠了） 2026 ...

1

评论

算法工程师

·

1年前

深度强化学习（DRL）算法 5 —— Twin Delayed Deep Deterministic Policy Gradient (TD3)

回顾深度强化学习（DRL）算法 4 —— Deep Deterministic Policy Gradient (DDPG) - 掘金 (juejin.cn) 文章里提到...

1

评论

算法工程师

·

1年前

深度强化学习（DRL）算法 4 —— Deep Deterministic Policy Gradient (DDPG)

回顾之前我们在深度强化学习（DRL）算法 3 —— Deep Q-learning(DQN) - 掘金 (juejin.cn)定义了 DQN 的 Loss 函数： $$...

1

评论

个人成就

文章被点赞 29

文章被阅读 10,933

加入于

2016-09-12