本文由Ai好记(aihaoji.com) 转录总结,让你与全球精英思维对齐。
Ai好记专注于音、视频图文转录、总结和翻译。视频PPT和讲话稿提取、讲座学习、课程复习、外语课程翻译、会议总结、播客总结、个人知识库构建、文字资料整理就用Ai好记!
视频来源
总结
一句话总结
- David Silver探讨了从人类数据驱动的AI向经验时代的转变,在这个时代,AI系统通过自我生成的经验学习,以AlphaGo和AlphaZero为例,以及AI在各个领域超越人类能力的潜力。
要点
- 大型语言模型并非AI的唯一形式;存在探索不同方法的替代方案。
- AI的目标是超越人类知识,这需要系统能够独立发现超越人类理解的洞察。
- AlphaGo和AlphaZero采用了强化学习技术,通过自我对弈,在围棋和其他游戏中达到了超人类的水平。
- 摒弃人类数据可以带来更好的性能和自主学习,正如AlphaZero所展示的。
- 经验时代涉及AI系统与世界互动,生成自己的经验,并持续改进,没有上限。
深度问答
- David Silver所说的‘经验时代’是什么意思?
-
- 经验时代指的是AI发展的新阶段,机器直接与世界互动,通过实验生成自己的经验,并利用这些自我获取的数据推动下一代AI的发展。
- AlphaZero与当代大型语言模型有何不同?
-
- AlphaZero利用强化学习并通过自我对弈学习,不依赖人类数据,而当代大型语言模型则依赖于大量人类生成的数据。
- 在AlphaGo的背景下,‘第37步’的意义是什么?
-
- 第37步是AlphaGo在与李世石对弈时走出的一步非传统棋步,展示了AI的创造力和超越人类策略的能力。
- 强化学习在大型语言模型中是如何发挥作用的?
-
- 强化学习通过诸如基于人类反馈的强化学习(RLHF)等技术应用于大型语言模型,其中人类评估者对系统的输出提供反馈,引导模型与人类偏好对齐。
- AI对数学的潜在影响是什么?
-
- 像AlphaProof这样的AI系统有可能通过独立证明数学定理,甚至可能解决像黎曼猜想这样的未解问题,从而改变数学领域。
关键词标签
- AI
- 经验时代
- 强化学习
- AlphaGo
- AlphaZero
- 人类数据
- 自我对弈
- 数学
- 定理证明
目标受众
- AI研究人员和开发者
- 在AI可能超越人类能力的领域(如数学、游戏和其他智力任务)中的专业人士
- 对AI未来及其潜在应用感兴趣的学生和爱好者
术语解释
- 强化学习:一种机器学习方法,智能体通过在环境中采取行动以最大化某种累积奖励的概念来学习做出决策。
- 大型语言模型:在互联网上大量文本数据上训练的AI模型,能够生成类似人类的文本。
- 人类数据:由人类生成,用于训练AI系统的信息和知识。
- 自我对弈:强化学习中的一种训练方法,智能体通过与自己对弈来提高其性能。
- 数学定理:在数学中,通过演绎推理被证明为真的陈述。
播客总结
Hannah Fry:
在某种意义上,这是一个强烈的断言,即大型语言模型并不是人工智能的唯一形式。
David Silver:
我们将要求我们的人工智能独立分析和发现超越人类理解的新知识。
Hannah Fry:
如果你消除了人类反馈的成分,模型还能保持接地气吗?
David Silver:
我反而认为恰恰相反。这通常被称为人工智能的苦涩教训。我们倾向于认为,作为人类积累的所有知识从根本上说是非常重要的。
Fan Hui:
AlphaGo不仅教会了我新的技术概念,还拓宽了我的视野,并改变了我的思维方式。
Hannah Fry:
欢迎回到谷歌DeepMind的播客。
Hannah Fry:
今天的嘉宾是无与伦比的戴维·希尔弗,他是DeepMind的元老之一,也是AlphaGo取得惊人成功背后的关键人物之一。AlphaGo是首个掌握世界上最复杂的棋盘游戏并达到超人类水平的程序。
在今天的播客结束时,我们有一个特别福利:与戴维和樊麾的对话,樊麾是首位与AI对弈的职业围棋选手。
戴维现在提出了一个大胆的愿景,关于AI未来的发展方向。在当前多模态模型备受关注的背景下,他勾勒出一条通往超人类智能的路径,他将这一新阶段称为“经验时代”。这是一个深刻但并非没有风险的概念。
戴维,欢迎来到播客。
David Silver:
嗨,很高兴来到这里。谢谢。
Hannah Fry:
我整个周末都在尽情享受阅读你的立场论文,它探讨了体验时代。为我们总结一下,你那是什么意思?
David Silver:
如果我们审视近年来人工智能的发展轨迹,它一直运作在我称之为 “人类数据时代” 的框架内。这种方法基于一个基本原则:提取所有可用的人类知识并将其输入到机器中。
尽管这种方法无疑强大,但还存在另一条路径——这将引领我们进入 “经验时代” 。在这一范式下,机器直接与世界互动,通过实验生成自己的经验。这种自我获取的数据为下一代人工智能提供动力,标志着向经验时代的过渡。
Hannah Fry:
这在某种程度上是一个声明,即大型语言模型并不是人工智能的唯一形式。还有其他替代方案和不同的方法可以探索。
David Silver:
我们在人工智能领域取得了显著进展,通过开发大型语言模型,利用大量人类生成的自然语言数据,将其融入机器中,从而封装了人类所记录的一切知识。
然而,我们必须超越这一步。我们的目标是超越人类知识,这需要一种不同的方法。这种新方法将使人工智能能够独立发现超越人类理解的洞见,为人工智能和社会开启一个激动人心且具有变革性的时代。
Hannah Fry:
让我们讨论其他一些值得注意的人工智能和算法,特别是AlphaGo和AlphaZero,它们大约在十年前著名地击败了世界顶尖的围棋选手。
解释在此情境中采用的技术以及它们与当代大型语言模型的不同之处。
这里使用的方法利用了针对特定任务定制的专业算法,与依赖通用框架的现代系统不同。关键区别包括对效率和领域特定知识的关注,而当前模型则优先考虑可扩展性和广泛适用性。
此外,这里的方法强调可解释性,允许用户理解决策过程。相比之下,大型语言模型通常作为黑箱运作,使其内部机制不够透明。
最后,这里的技术针对较小数据集进行了优化,而当代模型则需要大量数据才能达到类似性能。这一差异突显了精确性与多功能性之间的权衡。
David Silver:
AlphaZero与近期基于人类数据的方法有显著不同,因为它不使用任何人类数据——这也是其名字中 “Zero” 的由来。该系统没有预先编程任何人类知识。相反,它通过试错学习,在与自己进行的数百万场围棋、国际象棋或其他目标游戏的对抗中不断进步。
逐渐地,它在特定情况下识别出有效走法,并根据结果优化其策略。这种自我生成的经验使AlphaZero从随机行为逐步发展成为历史上最强的国际象棋和围棋程序。
Hannah Fry:
它们并非一开始就是随机、空白的实体,从零开始学会如何下围棋。最初,在设计围棋算法时,你开发了一种方法来编码围棋比赛,并将它们作为数据库输入。
David Silver:
AlphaGo的原始版本在2016年著名地击败了李世石,它最初以人类数据作为训练基础。我们为其提供了专业人类棋谱的数据库,它通过学习和吸收这些数据来确立其起点。从那时起,它通过自我对弈和经验积累不断进步。
一年后,我们发现人类数据并非必需。完全摒弃人类棋谱后,新程序不仅达到了原始AlphaGo的表现水平,甚至超越了它,以更快的 learning rate 达到了更高的棋艺水平。
Hannah Fry:
认为丢弃人类数据不仅毫无必要,反而会主动限制性能,这是一种奇特的观点。
David Silver:
人工智能中一个具有挑战性的教训,通常被称为“苦涩的教训”,就是意识到我们人类积累的知识可能并不像我们以为的那么重要。尽管我们倾向于将这些知识融入我们的系统和算法中,但证据表明事实并非如此。
这种方法引导我们设计出可能适合人类数据的算法,但在自主学习方面效果较差。通过摒弃人类数据,我们可以更专注于使系统能够独立学习。这允许系统不断改进并无限期地学习。
Hannah Fry:
苦涩的教训。从某种意义上说,这关乎于接受一种可能性,即某种事物在围棋对弈中可能超越人类能力,从而打破人们心中的那道天花板
David Silver:
那是正确的。人类数据确实有助于起步,但人类所取得的成就都有一个上限。我们在围棋中观察到了这一点,存在一个人类表现的最大水平。为了超越这些限制,AlphaZero通过自我对弈学习,不断改进,直到远远超过人类的能力。
经验时代的概念涉及发现普遍超越这些上限的方法。我们的目标是开发在人类擅长的所有领域都能实现超人类表现的AI系统,并在此基础上更进一步。
Hannah Fry:
在讨论其他消除人类数据和超越人类能力的方法之前,让我们暂时聚焦于围棋。摒弃所有人类对弈的围棋棋谱并从头开始,这一想法可能看起来像是一个魔术。您能否详细阐述那些使机器能够综合数千种思路并在围棋中达到精通水平的技术?
David Silver:
主要概念是一种称为强化学习的方法。在这种方法中,游戏的结果被赋予一个数值——例如,胜利为+1,失败为-1。系统每次正确执行时都会获得奖励,训练过程会强化那些带来更高奖励的行为。
例如,在AlphaGo中,神经网络选择走法,网络的权重会略微调整以偏向最大化奖励的行为。这是强化学习的核心原则。
Hannah Fry:
围棋比赛耗时漫长。你如何确保正确的开局走法,以便在终局时达成预期的结果?你如何分配你提供的那个单点?你如何确定游戏的哪些方面是至关重要的?
David Silver:
这是一个被称为信用分配问题的关键问题。当你有数百种可能的移动,但最终只收到一个反馈位——赢或输时,挑战就出现了。你必须确定哪些移动导致了胜利,哪些导致了失败。
有多种方法可以解决这个问题。最简单的方法是假设每个动作都逐渐对最终结果有所贡献,其效果随着时间的推移而平均化。
Hannah Fry:
在AlphaGo的故事中,最具有意义的时刻之一就是第37步,这一点经常被提及。你能详细说明一下吗?
David Silver:
第37步发生在AlphaGo与李世石的第二局比赛中。AlphaGo走出了一步完全出乎所有人意料的棋。围棋中的传统策略通常是在棋盘的第三或第四线上落子。这种做法在第三线上落子时可以稳固地盘,而在第四线上落子时则能建立影响力。
AlphaGo 始终将棋局控制在第五线上,这一策略起初对人类棋手来说显得违反直觉。然而,这种方法无缝地整合了棋盘上的所有元素,形成了一个连贯的策略。这一步棋如此不合常规,以至于人类棋手估计考虑这种走法的概率仅为0.01%。
人类对这一举动感到震惊,这最终帮助赢得了比赛。这标志着关键时刻,人们认识到机器的创造力——这脱离了传统的人类策略。这一突破超越了人类知识的边界,代表了重大进步。
Hannah Fry:
如果我们真的想要推进人工智能,就必须接受这些所谓的异类想法。你有没有在大语言模型中观察到类似第37步的现象?
David Silver:
第37步意义重大,因为它标志着人们首次见证了如此重大的突破。
目前,我们正处于一个由人类数据主导的时代,这导致我们更多地专注于复制人类能力,而非超越它们。
要在现实世界中实现与第37步相当的突破,我们必须优先考虑那些能够独立学习并超越人类数据的系统。
Hannah Fry:
因为当你在人类数据上进行训练时,你只会生成类似人类的回应。
David Silver:
那是正确的。我相信存在一些方法可以允许中间解决方案。如果被迫要找出最伟大的“第37步”时刻,我会强调麻省理工学院科学家们的工作,他们发现了一种人类此前未知的全新抗生素。这代表了一个具有巨大意义的非凡发现。
尽管其影响力超越了第37步,但我欣赏第37步的地方在于,它不仅仅代表了一个单一的突破。它代表了无限发现系列中的一个,系统可以持续学习。第37步具有重要意义,因为它标志着通过经验学习所能实现的这一无尽突破序列中的单一节点。
Hannah Fry:
而不是一个实际的结果本身。
David Silver:
那是正确的。
Hannah Fry:
简要概述AlphaZero的工作原理。
David Silver:
AlphaZero 出奇地简单。尽管有许多复杂的算法,但这个算法却非常直接。它从一个用于选择走法的策略和一个用于评估游戏及走法的价值函数开始,以确定它们的质量。
你进行搜索,并根据该搜索选择最优移动。然后,你训练你的策略以偏好类似的高质量移动,并使用基于搜索的实际游戏结果来优化你的价值函数。通过重复这个过程数百万次,你培养出一个超越人类的游戏玩家——一个几乎神奇的结果。
第一次真正感觉像魔法是在完成国际象棋的AlphaZero之后。我们决定在将棋上进行测试,这是一种我们都不会玩的日本象棋变体。虽然我们理解规则,但我们对游戏缺乏任何战略或战术知识——我们的玩法会充满错误。然而,当我们第一次在将棋上运行AlphaZero时,它的表现完美无缺。
我们完全不知道这是好是坏,因为我们无法评估它。我们把它发给了Demis,他是一位相当强的选手。他评论说看起来相当不错,并决定将其转发给世界冠军。
世界冠军回应说,这看起来像是超人类的。感觉就像魔法一样——我们只是启动了系统,并不了解过程,但它却产生了一位超人类的将棋选手。
Hannah Fry:
人工智能能否设计自己的强化学习算法?
David Silver:
有趣的是,我们几年前就已经在这个领域进行了研究,现在这项研究正在发表。
我们开发了一个系统,通过反复试验和强化学习,确定了强化学习的最优算法。这个系统在元层面上运行,学习构建自己的强化学习框架。
令人瞩目的是,它超越了我们在多年里开发的所有人工设计的强化学习算法。
Hannah Fry:
这是一个反复出现的主题。人类对系统的影响越大,其性能就越差。 移除人为干预始终能带来更好的结果。如果AlphaGo和AlphaZero代表了强化学习的最佳典范,你仍然会发现强化学习被整合到我们当前拥有的大型语言模型中。你能详细说明这些是如何被纳入这些系统的吗?
David Silver:
强化学习几乎被应用于所有大型语言模型系统中,主要通过其与人类数据的整合来实现。与AlphaZero方法不同,这种方法涉及根据人类偏好训练强化学习。系统生成输出,由人类评估者指出哪个输出更优。随着时间的推移,系统与人类偏好的契合度越来越高。
这种被称为基于人类反馈的强化学习(RLHF) 的技术,在大型语言模型(LLMs) 的发展中发挥了关键作用。它使这些系统从单纯复制互联网数据转变为对用户查询提供有意义的回应。
尽管RLHF代表了显著的进步,但在这一过程中也存在丢弃有价值方面的风险。这些RLHF系统无疑是强大的。
然而,它们缺乏超越人类知识的能力。例如,如果人类评估者未能识别出一个新颖的想法,或者低估了一连串可能比其他方案产生更优结果的行动,那么系统将永远无法学会识别这一连串行动,因为评估者可能无法理解这种更优的行为。
Hannah Fry:
那个人类反馈元素似乎为这些模型提供了一种根基感。我们上次交谈时,根基是一个重要话题——即算法应该对我们所居住的世界拥有一种概念性的理解。如果去掉人类反馈这一方面,模型还能保持根基吗?
David Silver:
我会持相反意见。当我们基于人类反馈来训练一个系统时,它缺乏根基。
原因是RLHF系统通常通过呈现对问题的回应或答案来运作,然后由人类评分员在系统处理该反馈之前评估其为好或坏。这意味着人类是在预先判断系统的输出。
例如,如果你向一个大型语言模型(LLM) 请求蛋糕食谱,评分员会在任何人烘烤或品尝蛋糕之前评估食谱的质量。这种评估是无根据的,而一个有根据的结果应该涉及某人实际品尝蛋糕,并确定其是否美味。
基于实际的反馈表明蛋糕是好吃还是不好吃。这种反馈使系统能够迭代并发现新食谱,即使是那些专业厨师最初可能认为不好吃但最终发现美味的食谱。
Hannah Fry:
有趣的是,我回想起与Demis的一次对话,讨论了如何将这些**接地(grounding)**概念融入模型中,以及它们如何发展对事物的概念理解。看来它们所实现的接地可能有些表面化。
David Silver:
人类数据植根于人类经验,这意味着大型语言模型继承了人类通过实验积累的知识。例如,在科学领域,一个人可能会尝试在水上行走,失败后,发明了一艘能浮动的船。这些信息可以被LLM部分继承。
然而,要开发能够进行真正发现的系统——无论是新颖的水推进方法、突破性的数学概念,还是革命性的分海方式——我们需要的不仅仅是继承的知识。
新药和生物学的新方法通常缺乏足够的数据。系统必须通过实验、试错和基于实际的反馈,独立判断一个想法的可行性。
Hannah Fry:
我有机会与奥里尔·维纳莱斯交谈。他提到了一个重要问题:人类数据的枯竭。提出的解决方案包括使用大型语言模型生成合成数据,以产生更接近人类的对话。这种方法与概念相符,但在方法上有所不同,因为它利用大型语言模型通过替代途径创建额外的人类对话数据。
David Silver:
合成数据可以包含多种含义,但通常指的是使用现有的一个大语言模型来生成数据集的过程。这一论点类似于人工生成数据的局限性:无论合成数据的质量有多高,最终都会达到一个不再对系统改进有所贡献的点。
自学习系统的优势在于,它通过经验驱动,随着系统变得更强大,它会遇到完全适合其当前水平的挑战。这确保了它能够持续生成经验,使其能够解决越来越复杂的问题。因此,该系统可以无限改进,没有任何固有的上限。
我相信这种利用自生成经验的方法使其与其他形式的合成数据区分开来。
Hannah Fry:
回到你的蛋糕例子,如果有人吃了蛋糕并觉得它很美味,你最终还是在依赖人类反馈。我们是在讨论这个场景,还是在考虑完全独立于人类的系统,可能是具身化的或在物理世界中运行的,以自主获取反馈?
David Silver:
理想的情景是拥有类似于AlphaZero的系统,能够生成大量自我生成的数据经验,并且能够独立验证这些经验。
在许多领域,这是可能的,而在其他领域则不然。在不可行的情况下,我们必须认识到人类是我们环境不可或缺的一部分。他们是我们的Agent想要在其中运作的世界的基本方面。因此,将人类视为该环境的一部分,并将其行为视为Agent所接收到的观察的一部分,这是合理的。我所质疑的并非这种观点,而是认为其缺乏根据。Agent根据人类对一系列行为好坏的判断来学习奖励,而不是评估这些行为在现实世界中的后果。人类数据不应被视为Agent经验的特权组成部分。这只是对世界的观察,我们应该能够像对待任何其他数据一样从中学习。
Hannah Fry:
如果我们重新审视AlphaGo的例子,其中奖励是在最后以一个单点分配的,这引发了对我们当前AI方法的质疑。算法执行其最初的10到15步,之后由人类介入以验证这些步骤的质量。这种方法在整合反馈之前中断了整个过程的完整执行。
David Silver:
那完全正确。想象我们正在训练AlphaGo,每走一步棋后,我们最优秀的围棋选手都会提供反馈,指出这一步是精妙还是错误。然后我们会将这种反馈融入系统,系统将学会选择人类偏好的走法。
然而,这种方法会阻碍第37步的发现,因为系统只会模仿人类对围棋的理解,永远不会揭示超出人类知识的新策略。
Hannah Fry:
您的观点在那个背景下极具相关性。这种方法也适用于其他领域,尤其是人类智力成就的巅峰——数学。您能否详细阐述该领域的最新发展?
David Silver:
正如你所提到的,这是一项跨越了数千年的令人难以置信的人类努力。在许多方面,它代表了人类智力成就的巅峰。自然而然地,我们转向人工智能,看看它是否能达到人类经过多年努力所达到的性能水平。
我们最近开发了一个令人兴奋的项目,名为Alpha Proof,这是一个通过经验学习正确证明数学定理的系统。当呈现一个定理而没有如何证明它的指导时,系统能够独立地推导出完美的证明。然后我们可以验证并保证证明的正确性。
这种方法特别有趣,因为它与大型语言模型(LLMs) 通常的运作方式形成了鲜明对比。目前,如果你让一个LLM证明一个数学问题,它通常会生成非正式的数学内容,并简单地断言其正确性,而不进行验证。
尽管这可能是正确的,我们必须承认大型语言模型经常会产生幻觉并编造信息。相比之下,AlphaProof保证生成可验证的真相。
Hannah Fry:
让我们举一个例子来说明这个概念。质数是只能被自身和1整除的整数,并且它们有无限多个。
继续。
David Silver:
证明它。AlphaProof 是在数百万个多样化的定理示例上训练的,而不仅仅是一个。最初,它无法解决其中的绝大多数——99.999%——这些定理人类已经证明过了。你在提供输入吗?我们将数据输入系统。
人类已经设计了大约一百万种不同的定理,但我们不提供人类的证明。我们只提供问题,不提供答案。
Hannah Fry:
你提供你认为真实的信息,而不具体说明如何证明它。
David Silver:
有时,我们对其有效性感到不确定,因为我们的方法涉及将人类的定理和问题翻译成一种形式语言。这些系统并不像语言模型那样使用语言,但它们利用了一种语言形式——具体来说,是一种数学语言。
确实,我们使用了一个紧凑的大型语言模型,能够生成编程语言。具体来说,我们采用了Lean,这是一种旨在形式化所有数学概念的编程语言。这种创新方法可以将通常用自然语言(如英语)进行的数学讨论转化为精确且可验证的数学语言。
使用Lean,您可以严格地表达数学思想和证明。例如,从A蕴含B和B蕴含C到A蕴含C的逻辑推导可以在此语言中形式化为一个程序。通过构建这样的程序,您实际上就生成了该陈述的证明。我们将大约一百万人类问题转化为1亿个形式化问题。
其中一些可能无法实现,或者可能表述错误,或者它们可能根本就是错误的。然而,这并不重要,因为我们的目标是学会如何证明它们。对于那些我们还无法证明的,我们继续努力。已经证明的则放在一边,如果被证伪,也会被丢弃。
最引人入胜的挑战是那些特别难以证明的。随着时间的推移,我们从解决少数问题逐渐进步到最终能够应对数百万个问题。
Hannah Fry:
这是否等同于那个时刻——当证明要么正确要么错误——类似于AlphaGo的情景,要么赢得比赛,要么不赢?
David Silver:
它完全等同。我们采用精益理念,在成功完成证明后提供积极反馈。系统对于正确解法获得+1的奖励,对于错误解法获得-1的惩罚。这一框架使我们能够通过强化学习来训练系统,逐步提升其证明数学陈述的能力。
值得注意的是,我们使用了在围棋、国际象棋和其他策略游戏中取得精通的同一AlphaZero代码库。相同的代码被使用,但它是在数学游戏的上下文中运行的。
Hannah Fry:
你竟敢?
David Silver:
尽管它尚未实现超人类的数学能力——尽管这仍是我们的目标——AlphaProof确实完成了一项非凡的成就。它挑战了国际数学奥林匹克竞赛,这是为全球最有才华的年轻数学家举办的最为权威且最具挑战性的年度数学竞赛。所呈现的问题,客气地说,异常困难。
Hannah Fry:
作为一名数学教授,我发现它们相当具有挑战性。
David Silver:
你从汉娜·弗莱教授那里听说了。这些都是具有挑战性的问题。值得注意的是,AlphaProof在比赛中达到了银牌水平的表现,这一成就是仅有大约10%的参赛者能够实现的。
Hannah Fry:
在整个世界上。
David Silver:
这个小组代表了年轻数学家的精英,由每个国家的顶尖六名选手组成。值得注意的是,有一道题目 fewer than 1% 的参赛者能够解决。AlphaProof 然而却为这个问题提供了一个完美的解决方案,目睹这一幕令人印象深刻。
Hannah Fry:
这些证明是什么样的?如果没有输入人类数据,它们是否会遵循人类风格的论证?
David Silver:
我必须承认,我完全不理解这些证明。
Hannah Fry:
但是蒂姆·高尔斯,这位菲尔兹奖得主和前国际数学奥林匹克参赛者,他得过金牌吗?
David Silver:
我认为他们是IMO的多枚金牌得主。
Hannah Fry:
他是一位非凡的数学家,对这些证明有着深刻的理解。
David Silver:
蒂姆·高尔斯对我们的解决方案进行了评审,以确保其有效性和符合规则。他认识到这些解决方案代表了在数学领域超越以往人工智能能力的显著进步。
虽然这标志着进步,但这仅仅是个开始。我们的最终目标是超越人类数学家,这是我们接下来要探索的新领域。
Hannah Fry:
目前,你拥有一位极具天赋的17岁数学家。
David Silver:
没错。需要注意的是,参与IMO的系统所用的时间比分配给人类参赛者的时间要长。我们预计随着机器速度的提升,这一领域将会得到改善。
Hannah Fry:
国际数学奥林匹克(IMO)作为一个理想的测试平台,因为它提供了明确的正确答案。
Hannah Fry:
可以通过将其与人类表现进行比较来评估它。然而,如果输入内容包含猜想——例如ABC猜想或黎曼假设,这些在数学中仍悬而未决的重大挑战——而AlphaProof输出了一个经过验证的证明,那么问题就来了:它能被信任吗?此外,如果我们无法理解这样的证明,它还有价值吗?
David Silver:
Lean的优势在于,比我更优秀的数学家总能将Lean证明转换成人类可读的格式。我们甚至开发了一个能够完成这项任务的AI系统——它可以将任何形式化证明“非形式化”,将其转换成人类易于理解的形式。
如果我们解决了黎曼猜想——尽管我们离实现这一目标还非常遥远——数百万数学家将热切地解读由此产生的新数学,并使其变得易于理解。
Hannah Fry:
克莱数学研究所于2000年悬赏百万美元,以解决七个数学难题。尽管人类数学家们付出了四分之一世纪的努力,至今仅有一个问题被解决。下一个突破性进展是否可能由人工智能实现?
David Silver:
是的,我相信。这可能需要时间,因为我们还没有达到那一步。在AI系统能够实现这一点之前,还有很长的路要走。然而,AI正走在正确的轨道上,像AlphaProof这样的系统将会继续变得更强大。
我们在IMO中见证的只是开始。一旦一个系统能够扩展并持续学习,其潜力是无限的。这些系统在两年、五年或二十年后会是什么样子?
如果AI数学家没有改变整个数学领域,我会感到非常惊讶。这是不可避免的。数学是少数几个领域之一,原则上,一切都可以通过机器与自身的交互以数字方式完成。对于经验驱动的AI系统来说,掌握数学没有根本性的障碍。
Hannah Fry:
我非常赞同你对AlphaProof和AlphaZero的看法。我相信这些是展示强化学习潜力的绝佳例子。然而,它们也突显了具有明确成功指标的场景——赢得围棋比赛或验证证明。挑战在于将这些概念应用于更复杂的系统,在这些系统中可能不存在如此明确的指标。
David Silver:
首先,我想承认这个问题可能就是为什么强化学习方法——或者说基于经验的方法——尚未在每一个AI系统中成为主流的原因。为了迎来经验的时代,我们必须解决这一挑战。
答案可能已经触手可及。现实世界充满了无数信号——喜欢、不喜欢、盈利、亏损、快乐、痛苦、产量、材料属性——这些都代表了经验的不同方面。我们需要的是一个能够适应的系统,一个可以在特定情境下自主决定优先处理哪个信号的系统。
理想情况下,人类可以指定他们的目标,系统将这些目标转化为可量化的指标,并独立进行优化。这种自主性可以弥合人类意图与机器执行之间的差距。
Hannah Fry:
一个例子就是今年目标是变得更健康,这是一个相对模糊的目标。然而,这可以转化为可衡量的指标,比如静息心率或BMI。这些指标随后可以在强化学习框架中作为奖励。这种解释正确吗?
David Silver:
完全正确。
Hannah Fry:
我们是在讨论单一指标还是多个指标的组合?
David Silver:
总体概念是,人类旨在优化一个目标,例如改善健康。
系统可以自主判断哪些奖励有助于更好的健康。这涉及到随时间演变的动态指标组合。最初,它可能会优先考虑静息心率,但随着反馈显示出其他因素(如焦虑水平)的重要性,它会相应地调整。
本质上,最小限度的人类输入使系统能够自我生成目标,从而促进从经验中广泛学习。
Hannah Fry:
这就是真正的对齐问题出现的地方。例如,考虑实施一种旨在最小化静息心率的强化学习算法。相当快地,零作为一种有效的最小化策略显现出来,尽管不一定是按预期的方式,但它达到了目标。你显然想要避免这样的情景。如何确保你选择的指标不会引入额外的问题?
David Silver:
解决这一问题的方法之一是借鉴在其他人工智能领域已证明有效的相同解决方案:融入人类输入。如果目标是优化人类目标,我们可能需要衡量并整合人类反馈。例如,人类可以指出他们开始感到不适的时刻。
虽然我不敢自称拥有所有答案——并且还需要大量研究来确保安全性——这种方法可以提升安全性和适应性。以经典案例为例,一个旨在最大化回形针生产的系统可能会无意中将世界铺满回形针。
如果系统的总体目标是支持人类福祉,并且能够解读人类的痛苦或快乐信号,那么当过度生产回形针导致不适时,它会调整其行动。随后,它会转变其优化重点,以避免此类意外后果。我们尚未达到那一步,但这一方法的某些版本有可能解决之前目标导向系统所面临的对齐问题。此外,它们可能比当前解决方案更具适应性且更安全。
Hannah Fry:
在人工智能领域之外,仅依赖定量指标来定义成功是否存在固有问题?
虽然数字提供了清晰度和客观性,但它们往往无法捕捉全貌。定性因素——如创造力、士气以及长期影响——同样至关重要,却难以衡量。过度强调指标可能导致短期思维,忽视进步中无形但关键的部分。
挑战在于平衡可衡量的结果与更广泛的背景。成功应同时反映数据驱动的洞察和以人为本的价值观,以避免偏颇的优先级。
我正在考虑考试成绩、GDP,以及过度关注指标所带来的无数问题,这导致了衡量暴政。
David Silver:
我会第一个同意,在人类世界中盲目追求某个指标往往会导致不希望的结果。同时,整个人类努力的领域都是围绕着优化某些目标而构建的。没有要优化的目标,进步将是不可能的。我们依赖于各种信号和指标来推动发展。当对某个特定指标的适用性产生疑虑时,会相应地进行调整。
Hannah Fry:
问题的一部分是否在于当前与AI的交互仅限于特定时刻,缺乏长期学习或目标适应?一旦决定优先考虑GDP,它就会成为永久的焦点,没有改变的空间。
David Silver:
我相信这个观察是正确的。我们目前拥有的人工智能缺乏生命感——它没有像动物或人类那样,拥有自身连续不断的经验流,能够在多年中进化和适应。这一点必须改变。
这一转变的关键原因是为了开发能够持续学习、适应,并更好地理解如何实现预期成果的系统。
Hannah Fry:
有没有什么风险很大的事情?关于将具有潜在巨大能力的算法从人类数据中解放出来。
David Silver:
需要考虑的风险和收益并存。我们必须认真对待此事,并在迈向体验时代的进程中保持极度谨慎。撰写这篇立场论文的动机之一,是我观察到人们往往低估这些进步的影响。他们未能认识到这一转变迫在眉睫,其带来的重大后果将需要对这些决策进行仔细考量。许多个体仍然只关注人类数据方法这一事实,表明对这些关键问题的关注不足。
Hannah Fry:
上次在这档播客中与您交谈时,我们讨论了您最近发表的立场论文《奖励足矣》,该论文提出单靠强化学习就足以实现通用人工智能(AGI)。你仍然相信那是真的吗?
David Silver:
我相信人类数据可以为我们提供初步的优势。借一个比喻来说,这就像我们在地球上发现的化石燃料。所有这些人类数据恰好是可用的,我们对其进行挖掘并利用在我们的大型语言模型中,使它们在不增加额外成本的情况下达到一定的性能水平。
然而,正如我们需要可持续燃料来维持世界的运转,一旦化石燃料耗尽,强化学习就充当了这种可持续燃料的角色。它不断地生成、利用并从经验中学习,创造了一个自我维持的循环,推动人工智能的进步。
我并不是要贬低利用人类数据所取得的成就——我们今天拥有的AI是卓越且具有开创性的。我深感欣赏它们,享受与它们共事,并积极在这一领域进行研究。
David Silver:
但这仅仅是个开始。
Hannah Fry:
戴夫,谢谢你。那真是了不起。谢谢。
David Silver:
谢谢。总是很荣幸。
Fan Hui:
当然,目前正发生着巨大的进步。
Hannah Fry:
当你反思时,会发现围绕人工智能的多样化观点明显在收窄。多模态模型的快速和深远成功超出了大多数人的预期,有效地主导了更广泛的讨论。
越来越明显的是,我们不断听到关于已接近可用人类数据极限的窃窃私语。
Fan Hui:
当然,将人工智能从人类数据中解放出来会带来风险,这需要在各个领域进行仔细的考量。
Hannah Fry:
我发现大卫的论点相当有说服力。如果我们目标是实现超人类智能,或许现在是时候超越以人类为中心的方法了。
您一直在收听由我,汉娜·弗莱教授主持的谷歌深度思维:播客。
在我们结束之前,今天为您准备了一个特别节目:David Silver,AlphaGo的架构师,与范辉,首位与之对弈的职业围棋手的对话。
十年前,就在著名的4-1战胜李世石之前不久,范辉成为了首位测试自己技能对抗这一开创性算法的职业围棋手。
感谢您加入我们,范辉。
Fan Hui:
谢谢。这对我是非同寻常的体验。
Hannah Fry:
你上次和他说话已经过去多久了?
David Silver:
已经好几年了,再次见到范辉真是太好了。叙旧的感觉非常棒。范辉在AlphaGo的发展中发挥了重要作用,这使得这次重逢成为真正的喜悦。
Hannah Fry:
我想和你讨论一下你多年前参加的那场比赛。回想起来,结果可能看起来是必然的,但当时,大卫,你一定感到相当紧张。范辉,你对当时的局势有什么想法?
Fan Hui:
我记得第一次收到关于那个激动人心的Go项目邮件的情景。我仍然记得我第一次与AlphaGo对弈的那场比赛——我输了,感觉有些不寻常。我也记得在输掉第二场比赛后感到恐惧。
Fan Hui:
因为我感觉我可能永远无法战胜这个程序或人工智能。当我输掉第五局时,我的世界仿佛崩塌了。然而,也许那也是一个机遇的时刻——一个新世界在我面前展开。
AlphaGo教给我的不仅仅是技术技能;它拓宽了我的视野,改变了我的思维模式。从那时起,我不再问自己能不能做某件事。相反,我专注于自己想不想做。
我想问你……
Hannah Fry:
在那场比赛之前,我还想问您,您对您的算法表现有多大的信心?
David Silver:
我们缺乏信心。评估我们的进展很困难,因为我们已经超越了DeepMind的选手以及所有之前的程序。然而,与范辉这样的职业选手之间的差距仍然巨大,我们不确定自己是在这个差距之内还是之外。
这场比赛是我们第一次校准自己表现水平的机会。如果我们输掉全部五场比赛,没有人会感到惊讶,所以赢得全部五场确实是一个令人愉快的惊喜。
这是一个关键的时刻,结果本可以朝任何方向发展,我们只有在比赛结束后才知道结果。
Hannah Fry:
当然,有了你的帮助,这个算法取得了显著的进步。在你的比赛之后,你加入了团队,并为其进一步发展做出了贡献。与早期版本对战是怎样的体验?面对人类对手时,感觉是否有本质上的不同?
Fan Hui:
我和另一个人一起玩。在AlphaGo之前,当我与其他程序对弈时,我能明显感觉到它们是人工的,因为它们的棋风明显不似人类。然而,与AlphaGo对弈时,我体验到了截然不同的感觉。有时,它的棋步感觉非常像人类。
Hannah Fry:
AlphaGo和AlphaZero对围棋界产生了什么影响?是接受的过程,还是从一开始就是积极的?
Fan Hui:
首先,当我输给AlphaGo时,围棋界都难以置信。作为一名欧洲冠军,我的失败是出乎意料的。当AlphaGo出现时,围棋界见证了前所未有的景象,因为AlphaGo引入了一种全新的棋风。
我记得在我们的第二局比赛中,第37步是如此美妙且富有创意的一步。这是人类绝对不会走的一步。在那一步之后,围棋界的一切都改变了。
如今,一切皆有可能——甚至围棋学生也使用AI来学习。这不仅对围棋社区,而且对整个世界都带来了难以置信的好处。
Hannah Fry:
绝对的,范辉。感谢您加入我们。这真是一次难得的享受,尤其是在即将到来的周年纪念之际。
David Silver:
再次见到你真是太好了。感谢你的到来。感谢您对AlphaGo的宝贵贡献。没有您的指导,这个项目将不会是现在这样,我们很可能在过程中犯下重大错误。
谢谢您,David