LLM领域一些词语解释 lvzi 2025-01-22 4 阅读1分钟 reward hacking 解释:一类现象:cot错的,结果对的 例子。 出处:(2022)Scaling Laws for Reward Model Overoptimization