强化学习 - 用户5933265041827的收藏集 - 掘金

强化学习

用户5933265041827 创作等级LV.1

更多收藏集

3篇文章 · 0订阅

开发也能看懂的大模型：强化学习

### **什么是强化学习（Reinforcement Learning，RL）？** 强化学习是一种通过**试错机制**学习如何在环境中做出决策的机器学习方法。与监督学习不同，它没有直接的正确答案

数字人生
8月前
508
4
评论

LLM中的强化学习：PPO、DPO、KTO等

LLM中的强化学习：PPO、DPO、KTO等。为什么要用强化学习训练、强化学习算法发展脉络、常见的强化学习算法：PPO、DPO、KTO等等

LLM中的强化学习：PPO、DPO、KTO等

【RL】强化学习入门（一）：强化学习问题定义

强化学习入门（一），讲解强化学习问题定义。强化学习是一种学习如何从状态映射到动作以最大化最终奖励的学习机制。

IceTeapoy
12月前
558
6
评论