后训练之Online RL两种强化学习：离线学习（模型只从预先收集的（prompt, response, reward

两种强化学习：

响应（生成新的响应（Response））、奖励（获取对应的奖励（Reward））、更新（使用这些响应与奖励来更新模型权重）、持续/循环（模型持续学习并优化生成的响应）。

在线强化学习典型流程：

在线学习和离线学习的区别在于三元组数据是否是在线（持续、动态）生成的还是离线生成的。