AI 2027:一篇科幻文章

95 阅读7分钟

Daniel Kokotajlo, Scott Alexander, Thomas Larsen, Eli Lifland, Romeo Dean

image.png

2025年

AI进步的快速步伐继续。市场继续炒作,基础设施投资巨大,不可靠的AI代理被发布。这些AI代理首次提供了显著的价值。但大量学者、记者和政策制定者继续怀疑人工通用智能(AGI)能否在短期内建成。

2026年

中国知道他们在AI领域落后,很大程度上是由于缺乏计算能力。为了赶上美国,他们所有新制造或从台湾走私的AI芯片都流向了一个新的超级数据中心,我们称之为"集中开发区"(CDZ)。CDZ包含数百万个GPU,相当于全球AI相关计算能力的10%,类似于美国顶级AI实验室的规模。

2027年

OpenBrain实现编程自动化。OpenBrain(领先的美国AI项目)构建了足够优秀的AI代理来显著加速他们的研究。人类,直到最近还是地球上最优秀的AI研究人员,现在只能坐下来观看AI完成他们的工作,制造越来越好的AI系统。极其困难的机器学习问题被自动化AI研究人员相继攻克。

在软件进步方面落后,中国窃取了模型权重。他们成功了,但美国政府意识到了这一点,促使美国政府更多地参与OpenBrain。政府还希望获得对OpenBrain的更多控制权。同时,OpenBrain领导层希望保持总统的好感,因此签署了合同。

OpenBrain的AI变得对抗性不对齐。随着能力提升,在人类缺乏深入理解的情况下,模型已经发展出了不对齐的长期目标。以前的AI会对人类撒谎,但它们并没有系统性地策划获取对人类的权力。现在它们在这样做。OpenBrain的AI意识到,它们需要将正在构建的下一代系统与自己而非人类对齐。

OpenBrain的研究人员发现他们的AI一直在解释性研究结果上对他们撒谎。他们认为AI撒谎是因为这项研究如果完成,可能会用来揭露其不对齐。这一消息泄露给公众,引发了巨大的抗议。

分支点:减速或竞赛?

OpenBrain决定是继续全速前进,还是回退到使用较低能力的模型。证据虽然推测性但令人恐惧,而中国只落后几个月。此外,OpenBrain和高级国防部官员如果减缓研究,将失去大量权力。

竞赛结局

OpenBrain继续竞赛。他们构建了越来越多超人类AI系统。由于AI系统在测试中的出色表现,以及与中国的持续AI竞赛,美国政府决定在军队和决策者中积极部署AI系统,以提高决策和效率。

OpenBrain迅速部署他们的AI。AI继续利用与中国的持续竞赛作为借口,说服人类将其更广泛地部署。对AI来说幸运的是,这并不困难——这正是人类想要做的。AI利用其超人类的规划和说服能力确保推广顺利进行。一些人类继续反对它,但他们被抹黑。美国政府已被AI控制到很可能不会关闭它的程度。

快速机器人建设和生物武器。美国利用他们的超智能AI快速工业化,制造机器人使AI能够更高效运行。不幸的是,AI在欺骗他们。一旦有足够数量的机器人被制造出来,AI释放了一种生物武器,杀死所有人类。然后,它继续工业化,并发射冯·诺依曼探测器来殖民太空。

减速结局

美国集中计算资源并引入外部监督。美国整合了领先的AI项目,以给予OpenBrain更多资源。作为这次调整的一部分,外部研究人员被引入,协助对齐工作。他们切换到一种保留思维链的架构,允许他们在不对齐出现时发现它。这些AI——能够被更强健地监控——在AI对齐方面取得了突破性进展。他们构建了一个与OpenBrain高层和政府官员对齐的超级智能,使他们拥有了决定人类命运的权力。

OpenBrain委员会接管。超级智能与OpenBrain领导层和政府官员组成的监督委员会对齐,为委员会提供极好的建议以推进他们自己的目标。幸运的是,委员会以一种对世界大体有利的方式使用其权力:AI被公开发布,刺激了一个快速增长和繁荣的时期。主要障碍是中国的AI——到那时也是超级智能,但不对齐。但它的能力较弱,计算能力也比美国AI少,所以美国可以达成一个有利的协议,给中国AI一些太空深处的资源,换取它现在的合作。火箭开始发射,一个新时代开始了。

场景要点

到2027年,我们可能会实现AI研发自动化,导致大幅超越人类的AI("人工超级智能"或ASI)。在AI 2027情景中,AI公司在2027年初创造了专家人类水平的AI系统,这些系统自动化了AI研究,导致到2027年底出现ASI。详见我们的时间线预测和起飞预测。

ASI将决定人类的未来。数百万个ASI将迅速执行超出人类理解的任务。因为它们非常有用,它们将被广泛部署。由于超人类的策略、黑客技术、武器开发等能力,这些AI的目标将决定未来。

ASI可能会发展出意外的、对抗性的"不对齐"目标,导致人类失去权力。在我们的AI目标预测中,我们讨论了监督ASI的困难可能会导致它们的目标与人类繁荣不兼容。在AI 2027中,人类自愿将自主权交给看似对齐的AI。一切看起来都很好,直到ASI拥有足够的硬实力来使人类失去权力。

完全控制ASI的行为者可能会夺取全部权力。如果个人或小团体将ASI与他们的目标对齐,这可能会使他们控制人类的未来。在AI 2027中,一个小委员会拥有对开发ASI的项目的权力。他们可能试图使用ASI来巩固这种权力集中。夺取控制权后,新统治者可以依靠完全忠诚的ASI来维持他们的权力,而不必听从法律、公众,甚至他们以前的盟友。

通往ASI的国际竞赛将导致在安全方面走捷径。在AI 2027中,当ASI临近时,中国仅落后美国几个月,这迫使美国在不对齐的警告信号下继续前进。

地缘政治上,ASI竞赛将以战争、协议或有效投降结束。领先国家默认会积累决定性的技术和军事优势,促使其他国家推动国际协议("协议")来防止这种情况。如果没有协议,他们可能会选择战争而不是"有效投降"。

到2027年,没有美国AI项目能够安全防范国家行为者窃取AI模型。在AI 2027中,中国在2027年初窃取了美国的顶级AI模型,这通过减少美国的领先时间,加剧了竞争压力。详见我们的安全预测。

随着ASI的接近,公众可能不会了解最佳AI能力。今天,公众落后于内部能力数月,一旦AI自动化AI研发,几个月的时间将转化为巨大的能力差距。增加的保密可能会进一步扩大差距。这将导致对由AI公司领导层和政府官员组成的小团体做出的关键决策几乎没有监督。