openr中的prm训练

7 阅读1分钟

依然采用自回归的训练方式,损失为每个token的交叉熵。 (commit: d36685b)

疑问

仅仅是拼接了question和answer,没有按照模板来拼?

不重要,训练推理一致即可

mask起什么作用

OpenAI o1 复现——过程奖励模型(PRM) - 知乎 看这个说是为了可以方便推理,我觉得有道理。