依然采用自回归的训练方式,损失为每个token的交叉熵。 (commit: d36685b)
疑问
仅仅是拼接了question和answer,没有按照模板来拼?
不重要,训练推理一致即可
mask起什么作用
OpenAI o1 复现——过程奖励模型(PRM) - 知乎 看这个说是为了可以方便推理,我觉得有道理。
依然采用自回归的训练方式,损失为每个token的交叉熵。 (commit: d36685b)
不重要,训练推理一致即可
OpenAI o1 复现——过程奖励模型(PRM) - 知乎 看这个说是为了可以方便推理,我觉得有道理。