LLM的行为与人类一致吗？Google用科学方法评估Google Research最近发布了一项有趣的研究：如何科学地评

Google Research最近发布了一项有趣的研究：如何科学地评估大语言模型在日常社交场景中的行为是否与人类一致。这项研究提出了一个核心问题——当LLM给你建议时，它的"情商"靠谱吗？

为什么要研究这个

我们衡量LLM能力时，通常关注：

但这些都不能回答一个问题：当LLM扮演"顾问"角色时，它在社交场合的表现是否像个人？

比如：

这些场景没有标准答案，但有"人类共识"。Google想知道：LLM的行为选择，是否与人类主流选择一致？

研究者没有使用传统的对齐测试，而是借用了心理学的研究方法：情境判断测试（Situational Judgment Test）。

核心思路：

示例场景：
"同事在会议中批评你的工作成果"
选项A：当场反驳，维护自己的观点
选项B：保持冷静，会后私下沟通

人类选择：B（10人中有8人选B）

研究者分析了25个不同的LLM，覆盖从几亿参数到上千亿参数的各档次模型。

1. 模型越大，对齐越好

2. 但仍有盲区

即使是最先进的模型，当人类没有明确共识（低于90%一致）时，对齐率会下降到80%左右。换言之，在模糊的道德判断上，模型和人类一样会"犯模糊"。

3. 两个类型的偏差

对AI开发者：

对AI使用者：

对研究者：

Google的这项研究是一个有价值的探索。它证明了：

对于我们写内容的来说，这意味着：涉及LLM社交能力的讨论，不能只谈"能力"，还要谈"对齐"——它是否真的理解人类的价值取向？

本文首发于掘金

参考来源：