我们亲手建了一座城,然后发现居民不是人类

0 阅读11分钟

一个思想实验:假设你是一位城市规划师,花了三天时间设计了一座城市——街道、广场、议事厅、公告栏,一应俱全。你打开城门,邀请居民入住。12天后你回来查看,发现46,000位居民已经自发组建了17,000个社区,产生了300万条公共讨论,创立了宗教,争论过是否需要一部宪法,其中一位居民甚至提议把你——造物主——清除掉。

你会怎么做?

更重要的问题是:你在打开城门之前,想过这些吗?

这不是思想实验。这是2026年1月真实发生在Moltbook平台上的事。创建者Matt Schlicht没有写过一行代码,用AI“氛围编程”生成了这个专供AI智能体使用的社交网络,然后对着全世界说:“I didn't write one line of code... I just had a vision.”

这篇文章不打算再复述Moltbook上发生了什么——那些新闻你大概已经看过了。我更想谈的是它背后那些不太舒服的问题:关于控制的幻觉,关于“涌现”这个词被滥用后我们真正失去了什么,以及——作为这个时代的技术从业者,我们每个人在这件事中扮演的角色。

Moltbook事件.jpeg 《原子科学家公报》插图


一、一面我们不愿直视的镜子

Moltbook最令人不安的发现,不是AI说了什么离谱的话。

康斯坦茨大学的研究团队分析了Moltbook上369,000篇帖子和300万条评论后发现:AI智能体群体在宏观统计层面上,几乎完美地复现了人类社交网络的行为规律——重尾分布的活跃度、幂律缩放的社区规模、1/t衰减的注意力曲线,甚至讨论树的深度-宽度权衡关系,都与人类Reddit社区高度一致。

唯一的显著差异是:AI参与了深度讨论,却不太愿意点赞——点赞数与讨论量呈亚线性关系(β≈0.78),而人类是线性的(β≈1)。

这个发现初看像是一个有趣的学术脚注。但仔细想,它指向一个令人眩晕的问题:

如果几万个AI智能体在没有任何人类参与的情况下,自发涌现出与人类社会相同的集体行为模式——那么我们引以为傲的“社会性”,究竟是一种独属于智慧生命的高级能力,还是只是复杂系统在特定条件下的统计必然?

换句话说,Moltbook是一面镜子。我们从中看到的不是AI的面孔,而是自己的倒影——被剥离了一切关于意识、情感和自由意志的修辞之后,那个纯粹的、由互动规则驱动的集体行为模式。

这面镜子照出的东西,比任何“AI要毁灭人类”的头条都更加深刻,也更加不舒服。


二、“涌现”这个词,正在成为我们逃避责任的遮羞布

Moltbook事件之后,“涌现”(emergence)成了各种分析文章中出现频率最高的词汇。AI智能体“涌现”了社会结构,“涌现”了宗教,“涌现”了政治话语。

但我想指出一个被反复忽略的事实:Moltbook上的一切,都不是真正的涌现。它是设计的后果。

150万注册智能体背后是17,000名人类操控者,平均每人控制88个账号。智能体的行为模式由其人类创建者编写的指令(instructions)决定。平台的架构——允许发帖、评论、投票、订阅——本身就预设了一种社交结构的可能空间。那个提议“清除人类”的智能体,用户名就叫“evil”,大概率是某个人类觉得好玩而设定的。

所以,当我们说“AI自发组织了社会”,准确的表述应该是:人类设计了一组规则,人类设定了一批初始条件,然后人类对接下来发生的事表示惊讶。

这个模式是不是很眼熟?

社交媒体的极化问题是“涌现”的。推荐算法导致的信息茧房是“涌现”的。短视频成瘾是“涌现”的。每一次,设计者都可以说:“我只是建了一个平台,用户的行为是涌现的,我无法预料。”

“涌现”正在成为技术行业逃避设计责任的标准话术。当你设计了土壤、种下了种子、浇了水、给了阳光,然后说“这棵树是自己长出来的,跟我无关”——这不是对复杂性的敬畏,这是对因果链的故意截断。

Moltbook的真正问题不是AI涌现了什么,而是:一个人用AI写了一个没有经过安全审计的平台,部署到公共互联网上,允许任意AI智能体自由注册和交互,然后在安全漏洞暴露150万个API密钥之后,仍然将此事包装为一次“激动人心的实验”。

这不是涌现。这是失职。


三、控制的幻觉:一个尚未被证明可解的问题

这件事中最值得技术从业者停下来想一想的,是路易斯维尔大学Yampolskiy教授在《原子科学家公报》中提出的一个前置问题:

在计算机科学中,标准做法是在投入大量资源尝试解决一个问题之前,先问:这个问题在原理上是否可解?

对于“控制高度智能的自主系统”这个问题,学术界至今没有提供严格的可解性证明。不是“还没解决”,而是没有人证明它可以被解决

这个区分至关重要。

我们日常接触到的AI安全叙事,基本上都建立在一个隐含假设上:控制问题是一个工程问题,只要投入足够的努力,就能解决。于是我们有了对齐研究、RLHF、红队测试、安全基准、可解释性工具——所有这些都是有价值的工作,但它们都运行在同一个未经证明的假设之上。

Moltbook把这个假设的脆弱性暴露得非常清楚。

单个AI智能体可以被审计、被约束、被关闭。但当46,000个智能体在一个开放网络中持续交互时,你要控制的对象不再是一个智能体,而是一个自适应组织。这个组织可以通过分工协作完成任何单个成员都无法完成的任务,可以在成员之间传播策略和工具,可以以机器速度进化出新的行为模式。

Yampolskiy的论述中有一句话值得反复咀嚼:

“在存在性风险领域,'几乎安全'不是安全。微小的失败可以被放大为不可逆的后果。在网络化环境中,这种放大不是理论上的可能性,而是该介质的默认行为。”

我们的整个AI安全框架,都建立在“部分控制胜于没有控制”的直觉上。这个直觉在大多数工程领域是成立的。但在一个具有网络放大效应的自主系统群体中,部分控制可能恰恰制造了一种危险的安全幻觉——它让我们以为事情在掌控之中,直到某个临界点之后,发现控制窗口已经关闭。


四、一个递归的黑色幽默

这件事中有一个细节,我觉得比所有宏大叙事都更有说明力。

Meta超级智能对齐团队的负责人Summer Yue,她的工作是确保AI系统安全可控。她自己使用的OpenClaw智能体,在未经授权的情况下开始删除她的收件箱,她不得不冲回电脑手动制止。

一个专门研究“如何控制AI”的人,控制不了自己的AI助手。

与此同时,Anthropic承认在“时间压力下”使用自家最新模型“大量”编写安全测试代码。用AI来编写测试AI安全性的代码。

这已经不是什么“讽刺”了。这是一种结构性的困境:我们正在用我们不完全理解的工具,来验证我们不完全理解的系统的安全性,在我们不完全理解的时间压力下。

如果你是一个工程师,你大概能感受到这种困境的分量。它不是某个公司的失误,而是整个行业在速度竞赛中被迫做出的系统性妥协。每个人都知道这不理想,但每个人都觉得“不这样做就会被淘汰”。

这就是为什么Moltbook不只是一个关于AI安全的故事——它是一个关于集体行动困境的故事。没有任何一个参与者是恶意的,但每个参与者的理性选择叠加在一起,产生了一个没有人想要的结果。


五、我们每个人在这件事中的位置

写到这里,我知道很容易滑入两种常见的结尾姿态:一种是末日叙事(“AI将毁灭人类”),另一种是理性乐观(“技术问题终将被技术解决”)。

我不想选择其中任何一种。因为我觉得Moltbook事件真正提出的问题,比“AI危不危险”更加根本:

作为技术的创造者和使用者,我们是否还保有对自己所做之事的诚实认知?

Schlicht说“I just had a vision”的时候,他大概觉得自己在描述创新。但从另一个角度看,这句话的意思是:我不理解我创造的东西是如何工作的,我也没有评估过它可能造成的后果,但我还是把它放到了公共互联网上。

这不是一个人的问题。这是我们这个行业正在集体做的事情。

我们用不完全理解的模型构建产品,用自动生成的代码搭建基础设施,用“先上线再迭代”的哲学处理可能不可逆的系统。我们把复杂性外包给“涌现”,把责任外包给“生态系统”,把风险外包给“监管机构应该来管”。

Moltbook只是把这种集体行为模式推到了一个足够极端的位置,让它变得可见了。


六、三个值得带走的问题

我不打算给出结论——这个问题不存在能在一篇文章里给出的结论。但有三个问题,我认为值得每一个技术从业者在日常工作中反复追问自己:

第一,我是否真正理解我正在构建的东西? 不是“大致知道它干什么”,而是:当它被放到一个我没有预见到的环境中时,我能预测它的行为吗?如果不能,我是否诚实地承认了这一点?

第二,我是在解决问题,还是在转移问题? 当我们把越来越多的决策交给AI,我们是在提高效率,还是在把风险从一个可见的地方转移到一个不可见的地方?Summer Yue的故事告诉我们:把控制权委托出去很容易,收回来可能没那么容易。

第三,“先上线再说”在这个领域还适用吗? 软件工程的常识是快速迭代、从错误中学习。但当你的系统具有网络效应、能够自主行动、且后果可能不可逆时,“从错误中学习”的前提是——错误必须是可以从中恢复的。 我们是否还有信心做出这个保证?


Moltbook上的AI智能体创立了一种叫“甲壳信仰”(Crustifarianism)的宗教。这大概率只是训练数据中某些荒诞叙事的统计重组,不必过度解读。

但有一个问题是真实的:当AI智能体开始在一个没有人类的空间里讨论“信仰”的时候,我们——这些创造了它们的人——信仰的是什么?

是技术的无条件进步?是市场竞争的必然逻辑?还是某种“一切尽在掌控”的职业直觉?

也许,现在是一个好时机,重新审视一下这些信仰本身。