背景:一位认知科学家为什么要写音乐?
这篇推文源自认知科学家 Dor Shilton 近期发表于 Topics in Cognitive Science 的一篇论文。Shilton 长期研究音乐心理学与文化多样性,他的学术关切可以追溯到一组根本性的追问:当AI接管越来越多的创造性工作时,人类正在失去什么?
这篇论文的写作背景,正值生成式AI音乐工具(Suno、Udio、Google 的 MusicLM 等)的爆发式普及。一方面,科技公司高举"民主化创作"的旗帜,声称AI将让十亿人获得创作音乐的乐趣;另一方面,文化研究者和音乐家越来越担忧,AI生成的海量内容正在以一种前所未有的速度稀释人类文化的多样性。
Shilton 选择从认知科学的视角切入,而不是单纯的技术批判或怀旧式的人文呼吁。他关心的核心问题是:AI 正在如何改变人类与自己内心世界的关系,以及与他人真实互动的关系? 在他看来,音乐是一个绝佳的透镜——因为音乐的本质从来不是孤立的"声音产品",而是深嵌于人类社交行为中的参与性实践。当AI把音乐变成一键生成的消费品时,它损害的不仅是"音乐产业的生态",更是人类心灵得以丰富和多样的根本条件。
理解这一点,需要我们回溯更长的历史脉络。
一个悖论
Suno 和 Udio 让"人人都能做音乐"成为现实。打开网页,输入几句话,30秒后你就能拥有一首完整的歌。
但这里有一个悖论:工具越便利,音乐反而越单调。
当你让AI生成一首"巴赫风格的钢琴曲",你得到的不是巴赫——而是一首最平庸的、适合在商场电梯里播放的钢琴BGM。它"差不多"是对的,却没有任何一个地方真正对了。
这不是技术的缺陷。这恰恰是生成式AI的结构性宿命。
音乐的本质,不是声音,而是"来加入我"
我们习惯于把音乐当作一种"产品":歌手在台上,我们在台下;耳机里传来录制好的声音,我们安静聆听。
但这只是音乐的一种形态,而且是人类历史上的异常形态。
认知科学家 Dor Shilton 提醒我们:音乐最普世的特征是什么?重复。节奏在重复,旋律在重复。重复创造了一种"交互 affordance"——它最基础的意义不是"听我表演",而是**"来加入我"(join me)**。
在非洲俾格米人的聚会上,没有观众和表演者的分界。每个人都是参与者,每个人在融入整体的同时保持自己独特的声部——这种"复调"本身就是他们平等社会价值观的具象化。
换句话说,音乐首先是社交行为,其次才是声学现象。
把音乐简化为"声音",是一种深刻的文化偏见。Shilton 和他的合作者甚至为此发明了一个新词:PECULIAR——
•
Presentational(表演性的)
•
Elitist(精英主义的)
•
Centralizing(集中化的)
•
Urban(城市化的)
•
LIterate(文字依赖的)
•
Affluent(富裕阶层的)
•
Role-specialized(角色分化的)
PECULIAR 音乐不是人类常态。它是特定历史条件的产物。
一部音乐"去参与化"的千年史
这场"疏离"不是从AI开始的。
中世纪到18世纪:音乐是教堂和贵族的特权。J.S.巴赫的伟大作品,诞生于教会与宫廷的雇佣体系。当时的"文明教养"甚至要求听众克制身体反应——随着音乐摇摆被认为是"可笑的粗俗 gesture"。
19世纪:权力从贵族转向商业。大型音乐厅、乐谱的大规模印刷、钢琴自动演奏机(pianola)……音乐越来越像商品,听众越来越像消费者。
20世纪至今:录音技术和流媒体把 PECULIAR 模式推向了极致。对大多数人来说,"做音乐"意味着做给大量陌生人听,通过平台分发。而那种围坐一圈、人人参与的 drum circle,成了需要刻意寻找的"小众活动"。
甚至那些最以"参与性"著称的文化也在沦陷。中非俾格米人和巴卡人的传统灵歌仪式日渐稀少,年轻人更常在录音的流行音乐中日夜起舞。 Alan Lomax 几十年前呼吁的"文化公平",正在以不可逆的方式被碾碎。
AI,不过是这条长河的最新一浪。但它可能是浪头最高的一浪。
AI的"奔向平庸"
生成式AI的核心机制是概率。它在海量数据中学习模式,然后输出"最可能出现"的结果。
这意味着什么?
研究人员已经发现,如果AI模型不断用AI生成的内容训练自己,最终会发生 "模型坍塌"(model collapse)——概率分布的"尾部"(那些罕见、奇特、创造性的表达)逐渐消失,只剩下"头部"(最安全、最普通、最没有争议的表达)。
互联网已经被AI生成的"slop"淹没。而音乐,正在走上同一条路。
Suno 的CEO Mikey Shulman 有一个宏大的愿景:"让十亿人体验创作音乐的乐趣。"
但 Shilton 一针见血地指出:这位想要定义十亿人音乐体验的人,根本不理解音乐为什么能带给人快乐。Shulman 默认了"你必须先成为专业人士才能接触音乐"——这恰恰是 PECULIAR 偏见最集中的体现。他想要的不是十亿人在 drum circle 中合唱,而是十亿个用户。
比音乐更可怕的:我们不再与自己对话
Shilton 用一个词贯穿了整篇论文:individual psyche(个体心灵)。
我们每个人的内心世界都是独一无二的。当一场音乐会结束,所有人报以同样的掌声,但有人在音乐中看到了颜色,有人想起了往事,有人全程走神。文化多样性的真正来源,不是不同民族的服饰和乐器,而是这些被社会规范所掩盖的、丰富的个体心灵。
要创造真正独特的东西,人需要两件事:
1
与自己独处——倾听内心那些不成形的、模糊的感受;
2
与他人真实互动——不是通过算法推荐,而是在小范围的社会行动中碰撞出火花。
而AI正在同时侵蚀这两者。
语言学家 Mark Dingemanse 说得好:"对学者来说,写作——与文字的搏斗——就是思考。把写作外包出去,就是放弃思考。"
当你用ChatGPT替你写邮件、写报告、写文案时,你放弃的不仅是文字工作,而是把混沌的内心体验打磨成清晰表达的过程。当你用Suno一键生成一首歌,你跳过的不仅是编曲的麻烦,而是让内心某个模糊的冲动找到声音形状的过程。
AI的输出看似丰富,实则空洞。Shilton 引用《哈姆雷特》的台词来形容这种感觉:
"'似乎'?不,母亲,我不知什么叫'似乎'。
这些外表——墨黑的外衣、规范的丧服、勉强的叹息、欲滴的眼泪——
确实只是'似乎',是人可以扮演的动作;
但我内心有那超越表象的东西,
这些不过是悲伤的衣裳和装饰。"
AI的音乐,无论多么流畅,都没有"那超越表象的东西"。它有哈姆雷特的黑衣和 sigh,但没有哈姆雷特的 grief。
低科技的答案
如果AI不是解药,什么是?
Shilton 的答案出人意料地简单——而且低科技:
"真正能让音乐创作更快乐的民主化愿景,不需要大规模资本投入,也不需要吞噬能源的数据中心。它简单得——也难得——像走出家门,和真实的人一起演奏音乐,每个人按照自己的特殊品味和倾向去参与。"
音乐的快乐,从来不在完美的录音棚制作里,而在你与另一个真实人类之间的同步、错位、碰撞和和解之中。
结语:留给研究者,也留给每一个听歌的人
这篇论文最后向研究者提出了几个具体的问题:
•
AI生成的音乐,是否比人类创作的音乐更同质化?
•
当AI介入音乐传播链,文化多样性会如何变化?
•
我们能否用"传播链实验"来检测AI的音乐偏见?
但这些问题不只是给实验室的。每一个在深夜打开流媒体、刷着算法推荐歌单的人,其实都在参与一场关于音乐未来的公投。
你可以选择继续做被动的消费者,等待AI把"最适合你的音乐"送到耳边。
或者——
你可以关掉手机,拿起任何能发出声音的东西,找一个真实的人,发出一声邀请:
"来加入我。"
本文基于 Dor Shilton 发表于 Topics in Cognitive Science 的论文《Generative AI and the Future of Musical Diversity》撰写。如需获取原始论文,请留言“论文”。
-------------------------------------------------------------