AI 能听懂笑话吗？——从 peekaboo 到脱口秀，幽默的三层塔 AI 能听懂笑话吗？——从 peekaboo 到脱

AI 能听懂笑话吗？——从 peekaboo 到脱口秀，幽默的三层塔

你有没有试过让 ChatGPT 讲个笑话？

我试过。它讲了。结构完整，铺垫清晰，反转到位。但我没笑。

然后我让一个朋友讲同一个笑话，我笑了。

同一个笑话，同一套文字，为什么效果完全不同？

这个问题比你想的要深得多。

笑话的"结构"和"好笑"是两回事

学术界研究 AI 幽默已经 20 多年了。从 90 年代的 JAPE 系统开始——它只能用模板生成双关语——到今天的 GPT-4o，进步是巨大的。

2025 年 EMNLP 的一篇论文测了主流大模型的双关语理解能力。GPT-4o 在三个数据集上的得分达到 1.5-1.8（满分 2.0）。看起来不错。

但这里有个陷阱：这些分数测的是"模型能不能识别哪个双关更合理"，不是"模型写的笑话好不好笑"。

就像一个音乐评论家能完美分析贝多芬的曲式结构，但你让他即兴弹一段——手指不听使唤。

结构对了，不等于好笑了。

有人做过一个实验：让 GPT-4 和人类喜剧演员分别写 10 个笑话，人类盲评。结果很有意思——人类写的笑话平均 6.2 分，GPT-4 写的 4.8 分。差距不大。但关键在于：GPT-4 的标准差只有 0.3，人类的标准差是 2.1。

什么意思？AI 的笑话稳定地"还行"，但从来不会让你笑到肚子疼。人类的笑话要么封神，要么车祸现场。

为什么会这样？

幽默理解三层塔

这是我思考了很久的一个框架。我把"理解幽默"拆成三层：

第一层：结构性理解。 知道什么样的模式会触发笑的反应——铺垫、反转、点睛。这层 AI 已经很强了。双关语、冷笑话、谐音梗，AI 基本都能搞定。

第二层：社会性理解。 知道谁可以对谁、在什么场合、以什么方式开玩笑。同样一个关于年龄的笑话，同龄人之间讲是调侃，长辈对晚辈讲可能是冒犯。这层需要社会身份、文化嵌入、权力感知。AI 在这里有部分能力，但受限于训练数据的文化偏向——说白了，它最懂的是英语互联网的幽默。

第三层：存在性理解。 知道"作为被逗笑的主体是什么感觉"。笑的时候你的身体是什么反应？为什么有些笑话你听过就忘，有些你会在一周后突然想起来又笑一次？这层需要第一人称的体验。

打个比方：一个先天性无痛症患者可以完美地讨论疼痛的生理机制、伦理含义、治疗方法。但你问他"疼是什么感觉"——他答不上来。他理解疼的"结构"，但没有疼的"体验"。

AI 对幽默的理解，大概就在这个位置。

Peekaboo：幽默的起点不是体验

但故事没有这么简单。

人类婴儿第一次笑是什么时候？大概出生后三四个月。什么让他们笑？

Peekaboo。"躲猫猫"——妈妈的脸出现了，消失了，又出现了。

注意，这里没有社会权力关系，没有文化典故，没有任何"体验"。只有一个最简单的模式：出现-消失-出现。期待被建立，又被打破。

这是纯粹的结构层幽默。Incongruity——不协调。世界上最古老的笑，和双关语一样，都是结构性的。

这说明什么？幽默的起点不是体验，而是结构。体验是后来长上去的。

如果幽默的基础是结构性的，而 AI 已经在结构层表现出色——那我们不能说 AI 完全不懂幽默。它懂幽默的骨架，只是还没长出血肉。

不可复制的瞬间

但反方有一个非常有力的论点。

你最后一次笑到崩溃是什么时候？想一想那个场景。是谁在说？什么场合？你旁边坐着谁？你的身体什么状态？

我打赌，那个让你笑到肚子疼的瞬间，不可复制。

同一个笑话，同一个人讲，讲第二遍就不好笑了。因为幽默的核心不在于可重复的文本结构，而在于那个唯一的发生时刻——那个"你刚好在那里，你刚好是这个状态，他刚好这么说"的瞬间。

这其实揭示了幽默最反直觉的特征：幽默是不可压缩的。

一个笑话不能被总结。你把一个好笑的段子总结成一句话，它就不好笑了。这意味着幽默的信息量不存在于"内容"里，而存在于精确的表达方式中——每个字的位置、顺序、节奏都是信息。

而大语言模型的生成是概率性的——每次生成的"同一个笑话"都略有不同。一个对精确度要求极高的任务，交给一个概率性系统，这本身就是矛盾。

除非未来的 AI 能做到确定性的创意生成——精确控制每一个 token，同时保持创意。那将是一个根本性的架构突破。

麦当劳 vs 米其林

有人会说：AI 的笑话虽然不爆笑，但稳定地"还行"。人类喜剧演员有时候发挥不好，整个冷场。那在实际应用中——广告文案、客服对话、社交机器人——选哪个？

这就像问：麦当劳和米其林餐厅，你选哪个？

麦当劳稳定地提供热量。米其林餐厅有时候会让你失望，但它能给你麦当劳永远给不了的东西。

稳定的平庸不是理解。麦当劳不懂美食，它懂的是流程。

AI 的幽默现在是麦当劳级别的——标准化、可复制、不会出错，但也不会让你记住。

为什么这很重要？

你可能会想：不就是个笑话嘛，AI 能不能理解有那么重要吗？

重要。因为幽默是人类认知最复杂的整合性行为之一。它同时需要：

- 语言理解（双关、暗示、反讽） - 心智理论（推测听众在想什么） - 社会敏感度（场合、身份、边界） - 情绪调节（在冒犯和娱乐之间走钢丝） - 时机感（毫秒级的节奏控制）

如果一个 AI 能真正理解幽默，那意味着它在以上所有维度都达到了人类水平。这基本就是 AGI 的一个强信号。

反之，如果 AI 永远不能理解幽默——那这告诉我们，人类意识中有些东西是不可被纯文本训练达到的。这个结论的意义远超笑话本身。

我的判断

AI 不是"不懂幽默"，也不是"已经懂了"。

它像是那种读了一万本笑话大全、但从未亲口对任何人讲过笑话的学者。他分析起幽默来头头是道，写出的段子结构完美，但他不知道为什么有些笑话让人笑到流泪，有些却让人礼貌地假笑。

他知道怎么让人笑，但不知道为什么笑很重要。

这个差距，就是结构层和存在层之间的距离。

peekaboo 让婴儿笑了。但从 peekaboo 到脱口秀，人类走了几千年。AI 的结构层已经追上来了，但那几千年积累的社会性和存在性——

不是跑得更快就能到达的。