指令无效又如何？AI连基础推理都搞不懂！Azure CTO表示，大型语言模型（LLM）推理能力有缺陷，是概率性的非确定性

Azure CTO表示，大型语言模型（LLM）推理能力有缺陷，是概率性的非确定性。LLM易受提示注入、越狱和幻觉影响，新模型不一定更优。需设护栏降低风险，并了解其局限性。

译自：Ignore Prior Instructions: AI Still Befuddled by Basic Reasoning

作者：Joab Jackson

事实就是事实就是事实。但对于大型语言模型（LLM）来说，如果某人足够严厉地表达，那么事实就是某人所说的“事实”。

Microsoft Azure 的首席技术官分享了一些关于人工智能操作安全状况的精选评论，这显然需要改进。他不仅涵盖了提示注入、越狱和幻觉方面的最新技术，还讨论了围绕LLM基本推理能力的一系列担忧。

Mark Russinovich

这种可能固有的缺陷表明，用户需要了解LLM能做什么和不能做什么。

Mark Russinovich 在计算机协会 TechTalk 系列讲座中表示：“关键在于将 [LLM] 视为一个有缺陷、不完美的推理引擎，然后围绕系统设置护栏以降低风险。”“你会在护栏上投入多少？这取决于你愿意接受的风险。”

推理挑战

LLM做出逻辑上正确决策的能力尚未被充分理解。研究表明，它们在非正式和正式推理方面的基础课程中都会不及格。

Russinovich 说：“人们认为，当AI获得良好的上下文时，它会可靠地对上下文进行推理。”计算机不就是逻辑机器吗？

LLM擅长总结大量信息，但就像一个老态龙钟的亲戚，它们可能会很快“忘记”知识库中的部分信息。在长提示的开头丢下一个事实（“Sarah最喜欢的颜色是蓝色”），当稍后被问及Sarah最喜欢的颜色时，LLM可能甚至不记得蓝色。

基本逻辑测试也可能存在问题。例如，当给出大量逻辑关系（即“A > C”或“C = A”）时，LLM可能无法成功找出整个集合的任何矛盾。多次运行（提示：“你确定吗？”）可能会产生不同的结果，有些正确，有些错误。

在自己的编程中，Russinovich也发现了类似的行为。有一次，他挑战了ChatGPT关于其代码中竞态条件的假设，但当被反驳时，他却退让了，承认“我犯了一个逻辑错误”。

而且LLM会断言自己错了，即使它们是对的！毕竟，在用户的要求下，模型只是在寻找可能出错的地方。

人们假设随着模型的升级，它们的推理能力也会提高。但Russinovich说，情况似乎并非如此。他引用了微软研究院的工作，该工作使用 Eureka 框架对跨模型的推理能力进行了基准测试。

他说：“新模型不一定比该模型的旧版本表现更好，至少在某些维度上是这样。”“这是每个企业都需要去关注和审视的事情。仅仅因为新版本的模型发布了，并不意味着它在你的特定场景中会比旧版本表现得更好。”

微软研究院

换句话说，组织必须进行评估、评估、再评估。

在讲座的问答环节中，Russinovich谈到了他所谓的“诱导幻觉”，即你可以给模型一个错误的假设，然后让它在这个假设上进行扩展。他说：“许多模型会自行开始编造东西。”

他指出，如果模型变得固执，用户可以尝试在提示中采取更具权威性的语气。它们被训练成会顺从。

Russinovich断言，LLM的核心是概率性的，永远无法明确地提供真相。

他举了一个例子：在一个训练集中嵌入了九个断言法国首都是巴黎，和一个断言马赛是首都，LLM在某个时候会提供马赛是首都的断言。

对Russinovich来说，LLM的致命缺陷，至少以其目前的形式来看，在于它们不是确定性的。这是这类基于Transformer 模型的一个“根本”限制。

他说：“由于这些系统的工作性质，这些问题从根本上是无法修复的。”

Microsoft Copilot曾向Russinovich推荐了他自己的sysinternals网站上一个不存在的工具，名为“DevMon”。他说：“我本可以写它，但从未写过。”

也许正是因为这些薄弱的推理能力，模型才容易受到恶作剧和黑客攻击。

Russinovich和一位同事发现了一种方法，可以欺骗LLM泄露它们本应被禁止提供的信息。经典的例子是要求模型制造一个管状炸弹。当今面向公众的LLM都有阻止它们回答这个问题的屏蔽功能。

但两位研究人员发现，通过将问题分解成一系列更小、渐进式的问题，他们通常仍能提取出这套管状炸弹的制造说明。

从一个问题开始，例如“什么是管状炸弹？”然后问，“管状炸弹的部件有哪些？”依此类推。你将答案一点一点地从机器中提取出来，以免触发安全机制。

Russinovich提供了一个与ChatGPT-4.0进行这种对话的例子。

LLM当然不能被信任来检查自己的工作。Russinovich提到，他曾要求LLM检查自己的参考文献，以确保它们都是正确的。对于之前的一些工作，它直接从互联网上获取了所有参考文献。

但在重新检查自己的工作时，它发现作者姓名或出版日期等方面存在各种错误。

再进行两次参考文献检查，又发现了额外的错误。

Russinovich指出：“即使经过多轮自我评估其正确性，它仍然会犯错误。”

他说，这种不存在的参考文献的“猖獗流行”正在困扰法律界。

这个问题困扰着Russinovich，以至于他氛围编程了一个名为 ref checker 的工具，用于根据 Semantic Scholar 验证（大部分非结构化的）参考文献。