RLHF - 用户56162120250的收藏集 - 掘金

RLHF

用户56162120250

更多收藏集

5篇文章 · 0订阅

LLM中的强化学习：PPO、DPO、KTO等

LLM中的强化学习：PPO、DPO、KTO等。为什么要用强化学习训练、强化学习算法发展脉络、常见的强化学习算法：PPO、DPO、KTO等等

LLM中的强化学习：PPO、DPO、KTO等

DeepSeek 成功的数学原理与实践

今天我们来回顾一下**群体相对策略优化 (GRPO)**背后的数学原理，这是 DeepSeek 强大推理能力的核心强化学习算法。我将一一分析 GRPO 的工作原理、关键组成部分，以及它为何能颠覆大型语

MobotStone
1年前
689
1
评论

DeepSeek 成功的数学原理与实践

DeepSeek 背后的数学原理：深入探究群体相对策略优化 (GRPO)

GRPO动机什么是 GRPO？群体相对策略优化 (GRPO，Group Relative Policy Optimization) 是一种强化学习 (RL) 算法，专门用于增强大型语言模型 (LL

致Great
1年前
2.2k
点赞
1

DeepSeek 关键技术详解

一、DeepSeek 系列模型的技术创新表1. DeepSeek 关键技术一览 1. DeepSeek MoE 架构图1. DeepSeek MoE 框架示意图图1选自DeepSeek-Moe报

星辰聊技术
1年前
452
点赞
评论

深入剖析 deepspeed-chat 中 RLHF 的 PPO 算法代码细节

本文深入剖析 deepspeed-chat 开源项目中关于 RLHF 中的 PPO 算法代码细节，欢迎讨论学习

我是王大你是谁
1年前
722
2
评论

深入剖析 deepspeed-chat 中 RLHF 的 PPO 算法代码细节