自动化科学25年经验谈与DNA计算

3 阅读16分钟

访谈:自动化科学25年经验谈与未来展望——对话Ross King

我们很高兴推出新系列访谈,与顶尖研究者一起探讨推动AI突破的关键因素以及未来承诺的现实性。首位受访者是Ross King,他于2009年创造了第一个机器人科学家。他向我们讲述了科学发现的本质、AI应扮演的角色,以及他近期在DNA计算方面的工作。

自动化科学是一个非常激动人心的领域,现在似乎每个人都在谈论它——例如AlphaFold获得2024年诺贝尔奖。但你在这个领域已经工作了很多年。2009年,你开发了Adam,第一个能够产生新科学知识的机器人科学家。能多谈谈吗?

历史可以追溯到Adam之前。上世纪90年代末,我结束了在帝国癌症研究基金(现为英国癌症研究)的博士后工作,在阿伯里斯特威斯大学获得了第一份学术职位。在那里,我产生了尝试自动化科学研究的最初想法。

我们关于这个主题的第一篇论文发表于2004年,是关于机器人科学家的文章,发表在《自然》杂志上。那是起点。我们展示了科学方法中的不同步骤——形成假设、确定检验假设的实验、分析结果——都可以分别自动化。但整个循环尚未完全自动化,当时AI系统也没有做出任何新颖的科学发现。

2009年,我们构建了Adam系统。Adam是一个物理上庞大的实验室自动化系统,结合了能够完成科学研究全循环的AI,并且具备酵母功能基因组学的知识。Adam对酵母代谢提出了新的科学假设并通过实验证实,我们在实验室中手动验证了这些结果。

从那以后,这个领域发生了怎样的变化?

多年来进展不大。由于金融危机,经费筹措困难,这使得英国研究委员会变得更加保守。在那段时期之前,评审小组会选择最令人兴奋的科学项目。之后,他们更关注什么能在短期内为英国带来经济利益。

我们多年未能获得 funding,其他感兴趣的人也很少。在符号回归(寻找可解释的数学模型来拟合现象)方面有一些工作,但科学自动化的工作不多。改变这一状况的是AI的全面兴起。随着AI变得更加突出,人们的兴趣也随之增加,尤其是在2017年之后。

AI科学家的潜在优点和缺点是什么?

我先从宏观角度说:我认为科学对人类是积极的。我认为21世纪的生活比17世纪现代科学开始时的国王和王后的生活更好。我们拥有来自世界各地的更好的食物,早餐有美味的水果,还有好得多的医疗保健——17世纪的牙医可不是令人愉快的经历。我的手机可以一键与数十亿人通信,我可以飞遍全球。这对数十亿人来说,是难以置信的高生活水平,而不仅仅是精英阶层。科学技术应用带来了这一切。当然也有缺点——污染、环境破坏——但总的来说,对人类而言,我认为生活比17世纪更好。

然而,我们仍然面临巨大的问题。我们无法阻止全球变暖或许多疾病,仍有十亿人生活在粮食不安全中。我认为,如果世界各国合作并共享资源,我们有足够的技术解决这些问题。但我看不到在当前世界局势下这种情况发生的前景,历史上也看不到任何此类先例。因此,我唯一的希望是科学变得更高效。如果AI能帮助实现这一点,那么或许我们能克服这些挑战。如果我们拥有了更好的技术,之后却对人们不好,那问题就不在于世界的限制,而在于人类自身。

至于将AI科学家作为同事:AI系统不理解宏观图景。它们做不到真正聪明的事情,比如爱因斯坦将时空视为四维连续体而非完全分离的东西。如果你读爱因斯坦1905年的论文,它始于一个关于电和磁的哲学问题——AI系统远未聪明到能做类似的事情。它们看不出深层的类比或联系,但它们在科学的其他方面表现出色。它们真的可以阅读一切——它们已经把世界上的每篇论文读了1000遍。如果你有少量数据,机器学习系统能比人类分析得更好。从这个意义上说,它们拥有超人的能力。

现在有趣的一点是,如果你是一个在职科学家,在几乎所有领域,不使用AI你将不再具有竞争力。AI本身还比不上人类——但人类加AI比单独的人类更强。人类科学家需要拥抱AI,利用它做更好的科学。

你认为是否会达到这样一个节点:自主AI能够生成研究问题并指导研究的走向?

是的,我认为会,尽管我们目前还远未达到。它们能在受限空间中产生新想法,往往比人类更好,但它们还没有真正掌握宏观图景。

我认为这一天迟早会到来。我参与了一个名为“诺贝尔图灵挑战”的项目。目标是到2050年,构建一个能够达到诺贝尔奖得主水平的自主科学研究的AI机器人系统。如果你能做到,我们就可以建造两台、一百台、一百万台机器——这将改变社会。

你认为到2050年可行吗?

就在疫情之前和疫情期间,我认为达成这一目标的可能性在下降。但随后大语言模型取得了突破,它们在很多方面令人惊叹——通常也非常愚蠢,但总体上是相当聪明的。我认为仅凭它们自己不足以赢得诺贝尔图灵挑战,但我认为它们使得达成目标的可能性大大增加了。

有趣的是——我也不知道答案——是否需要解决通用AI才能解决科学问题,还是它更像国际象棋,你可以建造一个在国际象棋上是天才但其他什么都不会的专用机器。想象一个在物理学上是天才但对诗歌或历史一无所知的机器。这足够吗?

我的直觉告诉我这不够,因为一切事物都是相互联系的——诗歌有节奏,音乐包含数学结构。我认为一个AI科学家需要对其现实有更广泛的理解,而不仅仅是其特定领域。

人们过去认为人工智能需要这些东西来解决国际象棋,所以我们人类的直觉在这些事情上并不好。例如,我没想到仅仅通过构建更大的网络和输入更多数据,大语言模型就能工作得这么好。我以为它们需要某种深度的内部世界模型,甚至需要拥有身体来真正理解事物如何在世界中移动。

大语言模型提出了一些有趣的问题——它们是否仅仅在模仿智能,因为缺乏内部模型?

我认为AI在某种意义上必须拥有某种内部模型。只是我们不太理解它们为什么能工作。这纯粹是经验性的,非常不寻常。我不记得有过这样的情况:我们拥有如此重要的技术,却对它的理解如此之少。

这确实相当神秘。尤其是因为科学总是追问“机制是什么?”而对于AI,恰恰相反。问题是“它有效吗?”我们不知道机制是什么。

甚至连解释它的理论都不清楚。我自己来自机器学习背景,曾以为会是某种贝叶斯推断之类的东西。但数学家说不是,这都与某个高维空间中的函数映射有关。这两者似乎不一样,因此我们甚至不清楚应该用什么框架来解释它。

而且,高维空间中的映射在根本上不是人类能够直观理解的。

是的,所以这是个谜。为什么它们表现得这么好?为什么在那么多参数下不会过拟合?它们是如何得出合理答案的?通常,理解它们为什么会犯错很容易,但理解它们为什么能工作得这么好就不那么容易了。

你能谈谈你在DNA计算方面的工作,以及它与自动化科学的关系吗?

在自动化科学中,我们利用计算机科学来理解例如生物学或化学。而在DNA计算中,我们利用生物学和化学的技术来改进计算机科学。使用DNA,你有可能获得比电子学高出许多数量级的计算密度。这是因为DNA中的碱基大小与最小的晶体管大致相同,但你可以在三维空间中堆积DNA,而晶体管只能处于二维空间。在我们设计的DNA中,每条DNA链都是一台微型计算机。

DNA的妙处在于它可以自我复制——自然界已经拥有了非常有效的DNA复制方法。这就是我们人类以及所有动植物和细菌的复制方式,而电子计算机不会自我复制——它们是在耗资数十亿美元的工厂里建造的。我们可以利用自然赋予我们的这项奇妙技术。

DNA计算机是如何工作的?

有史以来最伟大的发现之一是艾伦·图灵发现或发明的通用图灵机的概念。这是一个抽象的数学对象,本质上是任何其他计算机能计算的东西它都能计算。你无法制造出更强大的计算机,意思是能计算那台通用图灵机不能计算的函数。

有很多不同的物理实现通用图灵机的方法。最常见的是建造一台电子计算机。但原则上,你也可以用罐头盒来建造一台图灵机——唯一的区别在于它们的运行速度和内存大小。你的计算机能执行多任务,是因为它可以被编程来做不同的事。

用DNA能做到的美妙之处是,你可以制造一台非确定性通用图灵机。这些计算机计算与普通通用图灵机相同的函数,但速度呈指数级提升——每当程序中遇到一个决策点时,不必只探索一条路径,它可以同时走两条路。因此,你可以制造一台像生物体(比如兔子)一样的计算机,可以复制、复制、再复制,直到我们解决问题,或者空间耗尽。于是空间成为限制因素,而不是时间。

你可以想象,如果你想搜索一棵树来寻找某样东西,你可以并行地铺开所有分支,而普通计算机会一次只沿着一个分支走。如果你对DNA计算进行估算,你可以在一个桌面上拥有比地球上所有电子计算机加起来还要多的内存和计算能力,这看起来不可思议。这仅仅是因为计算密度的问题。

那将是一个不可思议的规模扩大——就像现代智能手机比60年代某机构的超级计算机强大得多一样。但计算能力的提升速度已经不如从前了。

是的。计算机不像过去几十年那样持续提升了(摩尔定律)。这就是为什么那些大型科技公司正在建造像某中心曼哈顿区那么大、或者不久后可能要像某中心得克萨斯州那么大的计算农场。所以世界确实需要更高效的计算方式。

如果我们拥有大量的计算能力,你认为AI驱动的科学最适合应用于哪些科学问题或领域?有什么容易摘取的果实吗?

非常重要的是要将AI系统与实际实验和实验室整合起来。你不能仅仅通过思考科学就得到正确答案。我们需要真正进入实验室测试事物,但很多AI从业者和AI公司并没有真正意识到这一点。他们在“AI加模拟”的科学领域取得了巨大成功,以至于他们没有意识到模拟只和可测试的东西一样好。

有容易摘取果实的领域包括材料科学,因为我们需要更好的电池材料、更好的太阳能板等等。那里现在正发生着某种淘金热,许多初创公司获得了巨额估值。

另一个在某种意义上更简单的自动化领域是药物设计,因为移动液体比移动固相材料容易得多。闭环自动化已经某种程度上改变了早期药物设计,现在这个领域有很多公司。

宏观图景是,科学的经济成本正在下降。科学中涉及的很多实际思考现在可以由AI系统完成,而实验工作可以由实验室自动化很好地完成。你不需要雇佣人来移动东西,而且人们没有自动化那么精确,记录也不如自动化好。所以宏观图景是:如果我们能让科学变得便宜得多,我们能做什么?

你认为AI科学的下一步发展方向是什么?

我认为与国际象棋和围棋等电脑游戏有相似之处。在我一生中,计算机从下棋水平很差发展到能够击败世界冠军。我认为在科学领域也是如此。从当前技术能做的、到普通人类、再到像牛顿、爱因斯坦、达尔文这样的科学大师,能力是一个连续谱。如果你认同这条道路上没有明显的断点,那么我认为,有了更快的计算机、更好的算法和更好的数据,没有什么能阻止它们在科学上变得越来越好。而有证据表明人类在科学上正变得越来越差——每个科学家的平均经济效益在下降。我认为它们会越来越好,迟早会在科学上超越人类。我们拭目以待,但我很乐观。如果我们能度过这个时期,更好的科学可以提高人类的生活水平和幸福感,同时拯救地球。

而且现在我们有了这么多数据,我们需要那种原始的计算能力和智能来审视这一切。

是的,我们需要能够进行大量自动化的工厂来扩大规模。如果AI有了绝妙的想法却无法在实验室中验证,那就没有意义。在我看来,科学仍然处于前工业水平。一个首席研究员带着几个博士后和几个学生,就像家庭手工业,而不是科学的工厂。我认为人类仍将从事科学,但在未来我们不会实际去用移液管操作。这是我们选择Adam这个名字(亚当·斯密)的原因之一,我们想改变科学的经济学。

那Eve呢?

Eve是我们几年前开发的一个系统,用于研究早期药物设计。Eve优化一个过程,而不是做纯粹的科学。大多数系统实际上不做假设驱动的科学,它们优化某些东西,例如找到更好的电池材料,这很有用,但不一定是科学。

我们的新系统叫做Genesis。在那里,我们试图扩大能做的实验规模并积累大量数据。我们使用一个连续流生物反应器,它可以让你控制微生物的生长速率。如果你想理解它们的内部运作机制,这一点很重要。

你从微生物开始,因为它们是生命的基本单元?

是的,我们想理解真核细胞。生命有三域,另外两个是细菌。真核生物在10亿多年前进化而来。我们人类是真核生物。生物学是保守的,所以酵母和人类细胞的设计几乎相同,但酵母细胞比人类细胞简单得多。要理解人类如何工作,首先需要理解酵母,然后是人体细胞。一旦理解了人体细胞如何工作,就能理解器官如何工作,然后理解人类如何工作,进而解决医学问题。这是一种还原论的科学方法——我们首先理解简单的,然后在此基础上构建。

我喜欢这个递进,这种方法很有道理。

不幸的是,对我们的资助者来说,这不合理。他们现在普遍希望资助针对人体细胞的实用工作。他们不会轻易资助基础问题研究。

这就是资助体系的问题。过去几个世纪中,科学上的大多数伟大发现都不会得到资助——它们之所以发生,是因为人们出于最不切实际的理由做着最不切实际的事情。也许一个世纪后,它们才被发现具有实际用途。

确实如此。几年前在英国,每项研究委员会的资助申请都要写两页纸说明你的研究将如何让某中心更富裕或更健康。艾伦·图灵会在他的“决策问题”资助申请中写些什么呢?

谢谢,这是一次非常有趣的对话。

谢谢,很高兴讨论这个话题。这是一个非常有趣的话题。

关于Ross King

Ross King是某大学和某理工学院的联合教授。他提出了“机器人科学家”的概念:整合AI和实验室机器人技术,从物理上实现科学发现。他的研究成果发表于顶级科学期刊,并获得了广泛报道。他的另一个核心研究兴趣是DNA计算。他开发了第一个非确定性通用图灵机,目前正在研究一种能够解决比传统或量子计算机更大的NP完全问题的DNA计算机。FINISHED