openr中的prm训练

2024-11-13 354 阅读1分钟

依然采用自回归的训练方式，损失为每个token的交叉熵。 (commit: d36685b)

疑问

仅仅是拼接了question和answer，没有按照模板来拼？

不重要，训练推理一致即可

mask起什么作用

OpenAI o1 复现——过程奖励模型（PRM） - 知乎看这个说是为了可以方便推理，我觉得有道理。