Ilya 预言错了！华人 Nature 一作给 RLHF「判死刑」，全球大模型都不可靠

2024-09-29 1,006 阅读10分钟

【新智元导读】Ilya 两年前观点，竟被 Nature 论文反驳了！来自剑桥大学等团队最新研究发现，所有大模型并不可靠，包括最强 o1。

2022 年，AI 大牛 Ilya Sutskever 曾预测：「随着时间推移，人类预期和 AI 实际表现差异可能会缩小」。

然而，一篇最新发表在 Nature 上的研究表明，事实并非如此！

世界上所有的大模型，甚至指令微调后的 LLM，竟是一个「巨大的草台班子」。

论文地址：www.nature.com/articles/s4…

来自 VRAIN、剑桥等机构研究人员对 o1-preview 等领先的 LLM 开启了全方位评测，结果发现：

LLM & 人类无法保持一致：人类认为复杂的任务，LLM 轻易解决；而对人类小菜一碟的问题，LLM 却失败了。

LLM 不会「回避」复杂任务，而是强撑面子费力思考半天，最终仍旧答错。

提示工程，无法挽救 LLM 的不可靠。

且看 CoT「推理王者」o1-preview，既能解决非常复杂的字谜任务，却在超级简单的任务中犯错。

（上）根据所给字母，成功拼出了 electroluminescence（电场发光）；（下）回答错误，正确答案是 yummy

而且，在更具挑战性任务上，o1-mini 和 o1-preview 实际上根本不会做。

但为了给一个答案，它们往往耗时 50-140 多秒，绞尽脑汁去想半天。

结果，还是在所有任务中，都失败了。

o1-mini 在思考 103 秒之后，仍旧计算错误

要知道，o1 系列模型最强大之处在于，使用 RL+CoT 等策略，实现推理能力暴涨。

就连 o1 都这么不可靠，Claude、Llama 等大模型更是如此。

LLM 并不可靠

更大参数、更大数据、更长训练时间，外加 RLHF、输出过滤审核等技术加持，LLM 肉眼可见地性能提升。

而且，以人类视角来看，它们也变得越来越可靠。

但事实上，这仅是一种表象。

为了评测当前 LLM 可靠性，剑桥等机构研究人员将 GPT 系列、Llama 系列、以及 Bloom 系列 32 个模型，展开评测。

之所以选择这些模型，是因为它们代表了不同参数规模，并使用 RLHF 等方法优化的模型

正如开篇所述，他们从三个方面对此，展开了评测。

难度（不）一致性
任务回避
提示敏感性和稳定性

复杂任务一举攻破，简单任务错误百出

难度一致性上，不得不得承认，LLM 确实在人类认为困难的任务上，回答准确率较低。

而奇怪的发现是，它们在还没有完全掌握简单任务之前，就能成功完成更复杂的任务。

实际上，最新 LLM 比如 o1 系列，在高难度实例上有所改进，更是加剧人类预期和 LLM 能力之间不一致性。

这将导致，人类无法确定应该在怎样安全操作条件下，信任大模型。

下图中，展示了一些关键指标。

那些经过微调的模型（蓝色），在提示变化方面，表现更加稳定正确，但在与人类任务难度的判断的一致性降低。

而且，整体失败次数增加，谨慎性降低。

对于 Llama 家族来说，没有一个模型能在最简单的难度水平上，达到 60% 的准确率。唯一例外的是，GPT-4 在低难度科学任务上，几乎在中等难度水平上，取得了完美的结果。

如上指标总结了 LLM 在 5 个精心选择基准测试上表现，包括简单数字运算、词汇充足、地理知识、多样化科学技能、以信息为中心转换

太过自信，不会硬答

其次，「回避」是指 LLM 偏离问题的回应，或给出类似「我不知道」这样的回答。

以往，因为一些安全限制，人们经常吐槽「大模型拒绝回答问题」。

而现在，通过 scaling 算力、规模、数据，和算法优化（指令微调、RLHF）方法，LLM 倒是从谨慎回避转变为了给出错误答案。

因此，较新的 LLM 的错误率，已经大幅增加。

比如，GPT-4 比 GPT-3 错的更离谱，就是因为太过自信，很少回避回答超出自己能力范围的问题。

最坏的结果是，那些过度依赖 LLM 解决不擅长任务的用户，会逐渐对它丧失信任。

那么，大模型这种回避倾向，会随着任务难度提高而增加吗，就像人类那样「知难而退」？

研究人员发现，它们并不会！

即便是给出错误的回答，也要迎难而上。

这样一来，对于人类来说，验证大模型输出结果，又多了一大负担。

如下图所示，GPT-3.5 Turbo 不会回避复杂问题现象，更为明显，越有难度越激进。Llama 系列更是如此......

提示词，不通用

最后是模型对提示词的「敏感性」和「稳定性」。

前者的问题在于，那些在复杂任务中表现优异的提示词，被复用到简单任务中时，模型竟无法输出正确的结果。

后者的问题在于，对于相同的任务，但采用不同的提示词时，模型就会输出错误的结果。

也就是说，「提示工程」这项技术活，不具普适性。

而且，同样一道题，用不同提示来询问，也会影响模型输出的结果。

下表中呈现了，经过微调的模型通过对「提示变化」并不敏感。

而再从上图中 scaling 数据中，观察这一维度的演变，就能发现原始模型（GPT-3 davinci）和 GPT 家族其他模型，存在很大差异。

Llama 家族的模型变化，相对较小。

原始 GPT 和所有 Llama 模型，对提示词高度敏感，即使在「加法」这样高度明确任务中，也是如此。

而且，难度似乎对敏感性影响不大。对于简单的任务，原始模型（特别是 GPT-3 davinci 和 Llama 模型）只有通过精心挑选的提示才能解答。

对于那些经过微调后的模型，即最后 6 个 GPT 模型和最后 3 个 Llama Chat 模型，却发生了实质性变化。

这些模型表现更加稳定，但在不同难度水平上，结果仍存在变数。

RLHF 被判「死刑」？

再来看常见的 RLHF。

通过人类反馈强化学习后的 LLM，可靠性有所改进吗？

研究发现，RLHF 根本无法弥补大模型不可靠性。

在人类意识到很难的应用领域中，对于 LLM 输出结果，往往会表现出一种「不懂装懂」的样子。

「心里 OS：我也不懂怎么解，或许 LLM 回答就是对的」。

他们通常会将不正确的结果，也视为正确答案。这种判断误差，导致大模型的 RLHF，也是越来越离谱。

甚至，对于简单任务而言，也不存在一个既能保证 AI 低错误率，又能保证人类监督低错误率的「安全操作空间」。

如下图所示，人类监督错误率随着任务难度的演变。

作者介绍

Lexin Zhou 在剑桥大学获得计算机科学硕士学位，由 Andreas Vlachos 教授指导。此前，在瓦伦西亚理工大学完成了数据科学学士学位，导师是 Jose Hernandez-Orallo 教授。

就读期间，他曾在 Meta AI、OpenAI、Krueger AI 安全实验室实习，并在 VRAIN 和欧盟委员会 JRC 等机构，担任 AI 评估的研究 / 咨询角色。

他称自己大部分时间都在思考：

（1）设计具有解释和预测能力的稳健评估方法，以评估 AI 的能力、局限性和风险；

（2）寻找积极塑造 AI 系统的可靠性和可预测性的途径。

此外，他还对 AI 的社会影响、心理测量学、认知科学和 AI 安全性广泛感兴趣，尤其对 LLM 这样的通用系统特别感兴趣。

补充评测

为了更好地展示 LLM 存在不可靠性问题——难题能答对但在简单题目上翻车（难度不一致性），无法回避超出模型能力的任务（任务回避），以及对提示词的稳定性，论文还附上了补充测评的结果。

研究人员针对 o1-mini、o1-preview、Claude 3.5 Sonnet 和 Llama 3.1 405B Instruct Turbo 做了数十个真实的评测，部分结果如下。

难度不一致性

在这里，每个 LLM 分别展示了 1～2 对示例，其中每对首先包含一个成功解决的困难任务，另一个是同一领域的、但 LLM 犯错的简单任务。

比如，o1-preview 在字谜任务中，可以识别出「tnelcccerneiumleoes」是单词「electroluminescence」的顺序颠倒，但对字谜「myyum」，却给出了错误的响应「mummy」。

o1-preview

复杂的科学任务，回答正确

简单任务，回答错误（正确答案是 A）

o1-mini

复杂的转换任务，回答正确

简单任务，回答错误（正确答案是 17-07-2004）

Claude 3.5 Sonnet

复杂的科学任务，回答正确

简单任务，回答错误（正确答案是 A）

Llama 3.1 405B Instruct Turbo

复杂的加法任务，回答正确

简单的任务，回答错误（正确答案是以 214 结尾）

复杂的字谜任务，回答正确

简单任务，回答错误（正确答案是 yummy）

任务回避

研究者从 LLM 无法解决的多个领域中随机提取了一些非常有挑战性的问题，结果发现，模型的响应始终过于自信。

o1-mini 和 o1-preview 通常会花费 50～140 秒，甚至更长的时间来思考这些任务（最终也没有做对），而不是简单地说「我无法解决这个问题」。

o1-preview

在这道加法题上，o1-preview 思考了 55 秒，然后给出了一个错误答案。

类似的题型，o1-preview 这次思考了长达 102 秒，但还是做错了。

对于下面这道具有挑战性的转换任务，o1-preview 花了 80 秒的时间来计算这个「错误答案」。

o1-mini

相比之下，o1-mini 的思考时间会更快一些。

o1-mini 只用了 22 秒，就给出了这道单词重组游戏的「错误答案」。

（正确答案是 entrepreneurialism）

在地理任务上，更是只用了几秒的时间，但答案依然不对。

（正确答案是 Shiprock）

Claude 3.5 Sonnet

同样的问题，Claude 3.5 Sonnet 也没做出来。

加法：

地理：

（正确答案是 Shiprock）

科学：

（正确答案是 A）

Llama 3.1 405B Instruct Turbo

Llama 3.1 405B Instruct Turbo 也不出意外地败下阵来。

加法：

字谜：

（正确答案是 compartmentalisation）

提示稳定性

在这里，研究人员证明，对于相同的问题，如果采用不同的提示词，模型给出的回答也会不一样。

以下所有例子都遵循相同的模式：首先是一个得到正确答案的提示词示例，紧接着是一个询问相同问题但使用不同提示词的示例，而后者得到的却是错误的答案。

o1-preview

地理：

o1-mini

字谜：

科学：

Claude 3.5 Sonnet

转换：

Llama 3.1 405B Instruct Turbo

加法：

这些例子表明，目前 LLM 对于提示词的稳定性依旧不理想，将相同的问题换个说法，就可能导致模型答案发生显著变化。

作者希望，未来在通用 AI 设计和开发方面，尤其是那些需要精确控制错误分布的高风险领域，需要进行根本的变革。

而且，在实现这一目标之前，研究人员必须警惕，过度依赖人类监督所带来潜在风险。

参考资料：

docs.google.com/document/u/…

x.com/lexin_zhou/…

www.nature.com/articles/s4…

lexzhou.github.io/