后训练之Online RL

58 阅读1分钟

两种强化学习:

  • 离线学习(模型只从预先收集的(prompt, response, reward)三元组中学习)
  • 在线学习(模型在实时生成新响应的过程中不断学习)。

在线学习四步:

响应(生成新的响应(Response))、 奖励(获取对应的奖励(Reward))、 更新(使用这些响应与奖励来更新模型权重)、 持续/循环(模型持续学习并优化生成的响应)。

在线强化学习典型流程:

  1. 响应:准备prompt,输入LLM,LLM生成响应
  2. 奖励:将prompt-response送入奖励函数,奖励函数打分,生成prompt-response-reward三元组
  3. 更新:使用三元组数据来更新LLM模型

在线学习和离线学习的区别在于三元组数据是否是在线(持续、动态)生成的还是离线生成的。