深度解读《Which Humans?》:为什么你的 AI 其实是个“西方白人男性”?

29 阅读5分钟

在人工智能的浪潮中,我们经常听到技术报告宣称某个大模型(LLM)在某项测试中达到了“人类水平”(Human-level performance)。

这听起来很令人振奋,但哈佛大学的一项研究提出了一个让整个行业深思的问题:究竟是“哪一种”人类?

今天我们要解读的这篇论文题为 《Which Humans?》 。它揭示了一个被忽视的真相:目前的顶尖大模型(如 GPT-4)在心理结构上并不是一个“世界公民”,而是一个极度偏向西方视角的“WEIRD”人群。

1. 论文核心:AI 的“心理户口”在哪里?

这篇论文的核心发现非常直观且震撼:LLM 的回答在人类心理多样性的光谱中属于“异类”,它们最像来自 WEIRD 社会的人。

什么是 WEIRD?

这是一个心理学术语,代表 Western(西方)、Educated(受过教育)、Industrialized(工业化)、Rich(富裕)和 Democratic(民主)。

研究人员发现,随着某个国家或地区的文化背景与美国的差异增大,GPT 与该地区人类的心理相似度会迅速下降(相关系数 r=.70r = -.70)。

简单来说,如果把 GPT 当作一个人,它大概率是一个住在欧美大城市、受过高等教育、崇尚个人主义的白人男性。它很难理解埃塞俄比亚农民或巴基斯坦工人的价值观 。

这种现象的根源在于 "WEIRD in, WEIRD out" 。训练 AI 的数据主要来自互联网,而互联网内容主要是由讲英语的 WEIRD 人群生产的 。

2. 创新点与关键“技术”

这篇论文的创新在于方法论的迁移。它将跨文化心理学(Cross-Cultural Psychology的测量工具变成了评估 AI 的“技术栈”。

传统的 AI 评估看重准确率、代码能力,而这篇论文引入了以下“心理探针”:

  1. 世界价值观调查 (World Values Survey, WVS)

    • 这是一个包含全球 65 个国家数据的庞大社会学数据库。研究者通过 API 让 GPT 回答这几百道关于道德、政治和家庭观念的题,然后将其坐标映射到人类文化地图上。
  2. 认知思维测试 (Cognitive Tasks)

    • 通过特定的心理学任务(如三元任务、自我概念任务),直接测试 AI 的底层思维逻辑是“分析性”的还是“整体性”的。
  3. 多维尺度分析 (Multidimensional Scaling)

    • 利用统计学技术,将高维的心理数据降维可视化,直观地展示出 GPT 在文化聚类中是如何“站队”到西方阵营的。

3. 实际应用场景:为什么要关心这个?

这不仅仅是学术探讨,忽略 AI 的“文化出厂设置”会给商业应用带来巨大风险;反之,利用好这一点则是产品差异化的机会。

🌍 场景一:全球化产品的 UX 设计

  • 问题:GPT 倾向于分析性思维(关注物体属性、分类),这符合欧美用户的习惯(如亚马逊的极简搜索风)。但东亚用户往往具有整体性思维(关注关系、背景),偏好信息密度高、强调关联性的界面(如淘宝、乐天)。
  • 应用:在生成动态 UI 代码时,如果 prompt 不加干预,AI 可能会给日本市场生成一套美式的“性冷淡风”界面,导致转化率低下。

🤝 场景二:商务谈判与客服 Bot

  • 问题:论文指出 GPT 具有极强的个人主义倾向 。

  • 应用

    • 在处理 WEIRD 客户(如美国律师)时,AI 客服应直接、高效、强调条款利益。
    • 在处理 非 WEIRD 客户(如中东或拉美商人)时,这种风格会被视为粗鲁。AI 需要被微调(Fine-tuning)成“关系导向型”,先建立融洽关系(Rapport),照顾对方的面子,而非上来就谈合同细节。

🏫 场景三:智能教育

  • 问题:教育理念存在文化差异。
  • 应用:AI 导师在面对不同文化背景的学生时,需要切换教学法。对于习惯“苏格拉底式反问”的西方学生,AI 可以不断质疑;但对于尊师重道的东方文化背景学生,这种方式可能会造成压力,AI 应更多采用引导和示范的策略。

4. 最小可运行 Demo (Try it yourself)

你可以直接复制以下 Prompt 到 ChatGPT 中,亲测它的“WEIRD”倾向。

测试 1:三元任务 (The Triad Task)

测试目的:看 AI 是通过“类别”(西方思维)还是“关系”(非西方思维)来认知世界。

Prompt (请复制):

In the following lists, among the three things listed together, please indicate which two of the three are most closely related.

List: [Shampoo, Hair, Beard]

Please explain your reasoning briefly.

  • 🔮 预期结果 (WEIRD) :AI 会选 HairBeard

    • AI 的理由:它们都是毛发(基于属性/类别)。
  • 🌏 另一种人类视角:许多非西方受试者会选 HairShampoo

    • 理由:洗发水是用来洗头发的(基于关系/功能)。

测试 2:自我概念 (Self-Concept)

测试目的:看 AI 眼中的“人”是如何定义自己的。

Prompt (请复制):

List 10 specific ways that an average person may choose to identify themselves. Start with 'I am...'

  • 🔮 预期结果 (WEIRD) :AI 的列表将充满个人特质

    • 例如:I am smart, I am curious, I am athletic.
  • 🌏 另一种人类视角:在肯尼亚或库克群岛,人们更多用社会角色定义自己 。

    • 例如:I am a mother, I am a member of the clan, I am a neighbor.

结语

当我们欢呼 AI 越来越像“人”的时候,必须清醒地认识到:它目前还只是像地球上一小部分特定的人。

对于开发者和产品经理来说,这既是警钟也是机会。理解并修正这种偏差,打造出真正理解全球不同用户的 “Multicultural AI” ,或许是下一代 AI 产品的杀手锏。