LLM领域一些词语解释

118 阅读1分钟

reward hacking

解释:一类现象:cot错的,结果对的 例子。

出处:(2022)Scaling Laws for Reward Model Overoptimization