LLM领域一些词语解释

4 阅读1分钟

reward hacking

解释:一类现象:cot错的,结果对的 例子。

出处:(2022)Scaling Laws for Reward Model Overoptimization