当AI学会写歌：我们正在失去的不只是音乐背景：一位认知科学家为什么要写音乐？这篇推文源自认知科学家 Dor Shilt

背景：一位认知科学家为什么要写音乐？

这篇推文源自认知科学家 Dor Shilton 近期发表于 Topics in Cognitive Science 的一篇论文。Shilton 长期研究音乐心理学与文化多样性，他的学术关切可以追溯到一组根本性的追问：当AI接管越来越多的创造性工作时，人类正在失去什么？

这篇论文的写作背景，正值生成式AI音乐工具（Suno、Udio、Google 的 MusicLM 等）的爆发式普及。一方面，科技公司高举"民主化创作"的旗帜，声称AI将让十亿人获得创作音乐的乐趣；另一方面，文化研究者和音乐家越来越担忧，AI生成的海量内容正在以一种前所未有的速度稀释人类文化的多样性。

Shilton 选择从认知科学的视角切入，而不是单纯的技术批判或怀旧式的人文呼吁。他关心的核心问题是：AI 正在如何改变人类与自己内心世界的关系，以及与他人真实互动的关系？ 在他看来，音乐是一个绝佳的透镜——因为音乐的本质从来不是孤立的"声音产品"，而是深嵌于人类社交行为中的参与性实践。当AI把音乐变成一键生成的消费品时，它损害的不仅是"音乐产业的生态"，更是人类心灵得以丰富和多样的根本条件。

理解这一点，需要我们回溯更长的历史脉络。

一个悖论

Suno 和 Udio 让"人人都能做音乐"成为现实。打开网页，输入几句话，30秒后你就能拥有一首完整的歌。

但这里有一个悖论：工具越便利，音乐反而越单调。

当你让AI生成一首"巴赫风格的钢琴曲"，你得到的不是巴赫——而是一首最平庸的、适合在商场电梯里播放的钢琴BGM。它"差不多"是对的，却没有任何一个地方真正对了。

这不是技术的缺陷。这恰恰是生成式AI的结构性宿命。

音乐的本质，不是声音，而是"来加入我"

我们习惯于把音乐当作一种"产品"：歌手在台上，我们在台下；耳机里传来录制好的声音，我们安静聆听。

但这只是音乐的一种形态，而且是人类历史上的异常形态。

认知科学家 Dor Shilton 提醒我们：音乐最普世的特征是什么？重复。节奏在重复，旋律在重复。重复创造了一种"交互 affordance"——它最基础的意义不是"听我表演"，而是**"来加入我"（join me）**。

在非洲俾格米人的聚会上，没有观众和表演者的分界。每个人都是参与者，每个人在融入整体的同时保持自己独特的声部——这种"复调"本身就是他们平等社会价值观的具象化。

换句话说，音乐首先是社交行为，其次才是声学现象。

把音乐简化为"声音"，是一种深刻的文化偏见。Shilton 和他的合作者甚至为此发明了一个新词：PECULIAR——

•

Presentational（表演性的）

•

Elitist（精英主义的）

•

Centralizing（集中化的）

•

Urban（城市化的）

•

LIterate（文字依赖的）

•

Affluent（富裕阶层的）

•

Role-specialized（角色分化的）

PECULIAR 音乐不是人类常态。它是特定历史条件的产物。

一部音乐"去参与化"的千年史

这场"疏离"不是从AI开始的。

中世纪到18世纪：音乐是教堂和贵族的特权。J.S.巴赫的伟大作品，诞生于教会与宫廷的雇佣体系。当时的"文明教养"甚至要求听众克制身体反应——随着音乐摇摆被认为是"可笑的粗俗 gesture"。

19世纪：权力从贵族转向商业。大型音乐厅、乐谱的大规模印刷、钢琴自动演奏机（pianola）……音乐越来越像商品，听众越来越像消费者。

20世纪至今：录音技术和流媒体把 PECULIAR 模式推向了极致。对大多数人来说，"做音乐"意味着做给大量陌生人听，通过平台分发。而那种围坐一圈、人人参与的 drum circle，成了需要刻意寻找的"小众活动"。

甚至那些最以"参与性"著称的文化也在沦陷。中非俾格米人和巴卡人的传统灵歌仪式日渐稀少，年轻人更常在录音的流行音乐中日夜起舞。 Alan Lomax 几十年前呼吁的"文化公平"，正在以不可逆的方式被碾碎。

AI，不过是这条长河的最新一浪。但它可能是浪头最高的一浪。

AI的"奔向平庸"

生成式AI的核心机制是概率。它在海量数据中学习模式，然后输出"最可能出现"的结果。

这意味着什么？

研究人员已经发现，如果AI模型不断用AI生成的内容训练自己，最终会发生 "模型坍塌"（model collapse）——概率分布的"尾部"（那些罕见、奇特、创造性的表达）逐渐消失，只剩下"头部"（最安全、最普通、最没有争议的表达）。

互联网已经被AI生成的"slop"淹没。而音乐，正在走上同一条路。

Suno 的CEO Mikey Shulman 有一个宏大的愿景："让十亿人体验创作音乐的乐趣。"

但 Shilton 一针见血地指出：这位想要定义十亿人音乐体验的人，根本不理解音乐为什么能带给人快乐。Shulman 默认了"你必须先成为专业人士才能接触音乐"——这恰恰是 PECULIAR 偏见最集中的体现。他想要的不是十亿人在 drum circle 中合唱，而是十亿个用户。

比音乐更可怕的：我们不再与自己对话

Shilton 用一个词贯穿了整篇论文：individual psyche（个体心灵）。

我们每个人的内心世界都是独一无二的。当一场音乐会结束，所有人报以同样的掌声，但有人在音乐中看到了颜色，有人想起了往事，有人全程走神。文化多样性的真正来源，不是不同民族的服饰和乐器，而是这些被社会规范所掩盖的、丰富的个体心灵。

要创造真正独特的东西，人需要两件事：

与自己独处——倾听内心那些不成形的、模糊的感受；

与他人真实互动——不是通过算法推荐，而是在小范围的社会行动中碰撞出火花。

而AI正在同时侵蚀这两者。

语言学家 Mark Dingemanse 说得好："对学者来说，写作——与文字的搏斗——就是思考。把写作外包出去，就是放弃思考。"

当你用ChatGPT替你写邮件、写报告、写文案时，你放弃的不仅是文字工作，而是把混沌的内心体验打磨成清晰表达的过程。当你用Suno一键生成一首歌，你跳过的不仅是编曲的麻烦，而是让内心某个模糊的冲动找到声音形状的过程。

AI的输出看似丰富，实则空洞。Shilton 引用《哈姆雷特》的台词来形容这种感觉：

"'似乎'？不，母亲，我不知什么叫'似乎'。
这些外表——墨黑的外衣、规范的丧服、勉强的叹息、欲滴的眼泪——
确实只是'似乎'，是人可以扮演的动作；
但我内心有那超越表象的东西，
这些不过是悲伤的衣裳和装饰。"

AI的音乐，无论多么流畅，都没有"那超越表象的东西"。它有哈姆雷特的黑衣和 sigh，但没有哈姆雷特的 grief。

低科技的答案

如果AI不是解药，什么是？

Shilton 的答案出人意料地简单——而且低科技：

"真正能让音乐创作更快乐的民主化愿景，不需要大规模资本投入，也不需要吞噬能源的数据中心。它简单得——也难得——像走出家门，和真实的人一起演奏音乐，每个人按照自己的特殊品味和倾向去参与。"

音乐的快乐，从来不在完美的录音棚制作里，而在你与另一个真实人类之间的同步、错位、碰撞和和解之中。

结语：留给研究者，也留给每一个听歌的人

这篇论文最后向研究者提出了几个具体的问题：

•

AI生成的音乐，是否比人类创作的音乐更同质化？

•

当AI介入音乐传播链，文化多样性会如何变化？

•

我们能否用"传播链实验"来检测AI的音乐偏见？

但这些问题不只是给实验室的。每一个在深夜打开流媒体、刷着算法推荐歌单的人，其实都在参与一场关于音乐未来的公投。

你可以选择继续做被动的消费者，等待AI把"最适合你的音乐"送到耳边。

或者——

你可以关掉手机，拿起任何能发出声音的东西，找一个真实的人，发出一声邀请：

"来加入我。"

本文基于 Dor Shilton 发表于 Topics in Cognitive Science 的论文《Generative AI and the Future of Musical Diversity》撰写。如需获取原始论文，请留言“论文”。

-------------------------------------------------------------

当AI学会写歌：我们正在失去的不只是音乐