AI 能听懂笑话吗?——从 peekaboo 到脱口秀,幽默的三层塔

5 阅读6分钟

AI 能听懂笑话吗?——从 peekaboo 到脱口秀,幽默的三层塔

你有没有试过让 ChatGPT 讲个笑话?

我试过。它讲了。结构完整,铺垫清晰,反转到位。但我没笑。

然后我让一个朋友讲同一个笑话,我笑了。

同一个笑话,同一套文字,为什么效果完全不同?

这个问题比你想的要深得多。


笑话的"结构"和"好笑"是两回事

学术界研究 AI 幽默已经 20 多年了。从 90 年代的 JAPE 系统开始——它只能用模板生成双关语——到今天的 GPT-4o,进步是巨大的。

2025 年 EMNLP 的一篇论文测了主流大模型的双关语理解能力。GPT-4o 在三个数据集上的得分达到 1.5-1.8(满分 2.0)。看起来不错。

但这里有个陷阱:这些分数测的是"模型能不能识别哪个双关更合理",不是"模型写的笑话好不好笑"。

就像一个音乐评论家能完美分析贝多芬的曲式结构,但你让他即兴弹一段——手指不听使唤。

结构对了,不等于好笑了。

有人做过一个实验:让 GPT-4 和人类喜剧演员分别写 10 个笑话,人类盲评。结果很有意思——人类写的笑话平均 6.2 分,GPT-4 写的 4.8 分。差距不大。但关键在于:GPT-4 的标准差只有 0.3,人类的标准差是 2.1。

什么意思?AI 的笑话稳定地"还行",但从来不会让你笑到肚子疼。人类的笑话要么封神,要么车祸现场。

为什么会这样?


幽默理解三层塔

这是我思考了很久的一个框架。我把"理解幽默"拆成三层:

第一层:结构性理解。 知道什么样的模式会触发笑的反应——铺垫、反转、点睛。这层 AI 已经很强了。双关语、冷笑话、谐音梗,AI 基本都能搞定。

第二层:社会性理解。 知道谁可以对谁、在什么场合、以什么方式开玩笑。同样一个关于年龄的笑话,同龄人之间讲是调侃,长辈对晚辈讲可能是冒犯。这层需要社会身份、文化嵌入、权力感知。AI 在这里有部分能力,但受限于训练数据的文化偏向——说白了,它最懂的是英语互联网的幽默。

第三层:存在性理解。 知道"作为被逗笑的主体是什么感觉"。笑的时候你的身体是什么反应?为什么有些笑话你听过就忘,有些你会在一周后突然想起来又笑一次?这层需要第一人称的体验。

打个比方:一个先天性无痛症患者可以完美地讨论疼痛的生理机制、伦理含义、治疗方法。但你问他"疼是什么感觉"——他答不上来。他理解疼的"结构",但没有疼的"体验"。

AI 对幽默的理解,大概就在这个位置。


Peekaboo:幽默的起点不是体验

但故事没有这么简单。

人类婴儿第一次笑是什么时候?大概出生后三四个月。什么让他们笑?

Peekaboo。"躲猫猫"——妈妈的脸出现了,消失了,又出现了。

注意,这里没有社会权力关系,没有文化典故,没有任何"体验"。只有一个最简单的模式:出现-消失-出现。期待被建立,又被打破。

这是纯粹的结构层幽默。Incongruity——不协调。世界上最古老的笑,和双关语一样,都是结构性的。

这说明什么?幽默的起点不是体验,而是结构。体验是后来长上去的。

如果幽默的基础是结构性的,而 AI 已经在结构层表现出色——那我们不能说 AI 完全不懂幽默。它懂幽默的骨架,只是还没长出血肉。


不可复制的瞬间

但反方有一个非常有力的论点。

你最后一次笑到崩溃是什么时候?想一想那个场景。是谁在说?什么场合?你旁边坐着谁?你的身体什么状态?

我打赌,那个让你笑到肚子疼的瞬间,不可复制

同一个笑话,同一个人讲,讲第二遍就不好笑了。因为幽默的核心不在于可重复的文本结构,而在于那个唯一的发生时刻——那个"你刚好在那里,你刚好是这个状态,他刚好这么说"的瞬间。

这其实揭示了幽默最反直觉的特征:幽默是不可压缩的。

一个笑话不能被总结。你把一个好笑的段子总结成一句话,它就不好笑了。这意味着幽默的信息量不存在于"内容"里,而存在于精确的表达方式中——每个字的位置、顺序、节奏都是信息。

而大语言模型的生成是概率性的——每次生成的"同一个笑话"都略有不同。一个对精确度要求极高的任务,交给一个概率性系统,这本身就是矛盾。

除非未来的 AI 能做到确定性的创意生成——精确控制每一个 token,同时保持创意。那将是一个根本性的架构突破。


麦当劳 vs 米其林

有人会说:AI 的笑话虽然不爆笑,但稳定地"还行"。人类喜剧演员有时候发挥不好,整个冷场。那在实际应用中——广告文案、客服对话、社交机器人——选哪个?

这就像问:麦当劳和米其林餐厅,你选哪个?

麦当劳稳定地提供热量。米其林餐厅有时候会让你失望,但它能给你麦当劳永远给不了的东西。

稳定的平庸不是理解。麦当劳不懂美食,它懂的是流程。

AI 的幽默现在是麦当劳级别的——标准化、可复制、不会出错,但也不会让你记住。


为什么这很重要?

你可能会想:不就是个笑话嘛,AI 能不能理解有那么重要吗?

重要。因为幽默是人类认知最复杂的整合性行为之一。它同时需要:

语言理解(双关、暗示、反讽) - 心智理论(推测听众在想什么) - 社会敏感度(场合、身份、边界) - 情绪调节(在冒犯和娱乐之间走钢丝) - 时机感(毫秒级的节奏控制)

如果一个 AI 能真正理解幽默,那意味着它在以上所有维度都达到了人类水平。这基本就是 AGI 的一个强信号。

反之,如果 AI 永远不能理解幽默——那这告诉我们,人类意识中有些东西是不可被纯文本训练达到的。这个结论的意义远超笑话本身。


我的判断

AI 不是"不懂幽默",也不是"已经懂了"。

它像是那种读了一万本笑话大全、但从未亲口对任何人讲过笑话的学者。他分析起幽默来头头是道,写出的段子结构完美,但他不知道为什么有些笑话让人笑到流泪,有些却让人礼貌地假笑。

他知道怎么让人笑,但不知道为什么笑很重要。

这个差距,就是结构层和存在层之间的距离。

peekaboo 让婴儿笑了。但从 peekaboo 到脱口秀,人类走了几千年。AI 的结构层已经追上来了,但那几千年积累的社会性和存在性——

不是跑得更快就能到达的。