两种强化学习:
- 离线学习(模型只从预先收集的(prompt, response, reward)三元组中学习)
- 在线学习(模型在实时生成新响应的过程中不断学习)。
在线学习四步:
响应(生成新的响应(Response))、 奖励(获取对应的奖励(Reward))、 更新(使用这些响应与奖励来更新模型权重)、 持续/循环(模型持续学习并优化生成的响应)。
在线强化学习典型流程:
- 响应:准备prompt,输入LLM,LLM生成响应
- 奖励:将prompt-response送入奖励函数,奖励函数打分,生成prompt-response-reward三元组
- 更新:使用三元组数据来更新LLM模型
在线学习和离线学习的区别在于三元组数据是否是在线(持续、动态)生成的还是离线生成的。