Google I/O 2022: 促进知识和计算机技术发展

1,660 阅读25分钟

2022年5月12日

大约在 24 年前,Google 由两名研究生创立,当时 Google 拥有一个产品,以及一个远大的使命:整合全球信息,供大众使用,使人人受益。在那之后的几十年里,我们一直在推进我们的技术来实现这一使命。

我们所取得的进步源于我们多年来对先进技术的投入,从人工智能到为这一切提供动力的技术基础设施。每年一次,在我一年中最喜欢的一天:) 我们在 Google I/O 与大家分享最新进展。

今天,我谈到了我们如何提高我们使命的两个基本方面——知识和计算的发展——来创造能够提供帮助的产品。开发这些产品是令人兴奋的;更令人兴奋的是看到这些产品能够帮助大家做些什么。

感谢所有帮助我们完成这项工作的人,尤其是 Google 的同事们。我们很感激有这次机会。

- Sundar

以下是 Sundar Pichai 在今天的 Google I/O 开发者大会开幕式上发表的主题演讲全文。

大家好,欢迎大家!时隔三年,能再回到海岸线圆形剧场的感觉真好!我想对成千上万的开发者、合作伙伴和 Google 的同事们说:“很高兴见到大家”,也想对在世界各地收看此次大会的数百万观众朋友们说,“很高兴大家能来”。

去年,我们分享了在一些最具技术性挑战的计算机科学领域中的新突破,以及这些突破如何能让 Google 的产品在关键时刻发挥更大作用。我们做的这一切都是为了实现 Google 永恒的使命:整合全球信息,供大众使用,使人人受益。

我也迫不及待地想给大家展示 Google 是如何通过两种关键方式来推进这一使命的实现:其一,深化我们对信息的理解,从而将信息转化为知识;其二,推动计算机技术发展,不论大家身在何处,都能方便快捷地获取信息和知识。

今天,大家将看到我们在上述两种方式上取得的进展,以及这些进展是怎样确保 Google 的产品能够惠及大众。我先举几个简单的例子。在新冠疫情期间,Google 一直致力于提供准确的信息,帮助大家保持健康。去年,有近 20 亿次搜索是使用 Google Search 和 Google Maps 来寻找疫苗接种点的。

去年,Google 的洪水预测技术向在印度及孟加拉国的 2300 万人发送了洪水预警

我们还提升了 Google 的洪水预测技术,能让面临自然灾害的人们平安无恙。在去年的季风季,我们向在印度及孟加拉国的 2300 多万人发送了洪水预警。据我们估计,这帮助了成千上万的人及时疏散。

Google 翻译新增了 24 种语言

在世界各国,Google 翻译已经成为了外来客与当地居民互相沟通的重要工具。

通过机器学习技术,我们给 Google 翻译新增了包括盖丘亚语在内的新语种

实时翻译的存在证实了知识和计算机技术能够一起让人们的生活更加美好。现在,使用 Google 翻译的人数之多,远超以往,但我们不能止步于此,还应让 Google 翻译更加普及。现在还有很多语言在互联网上出现得没有那么频繁,翻译这些语言是一个技术难题,因为用来训练翻译模型的文本通常是双语文本,像是同一个短语的英语和西班牙语版本,但并非所有语言都有足量的公开双语文本。

因此,随着机器学习的进步,我们开发了一种单语方式,能让翻译模型在从未见过某种新语言的直译版本的情况下,直接去学习翻译此新语言。通过与母语人士及当地机构合作,我们发现用单语方式进行的翻译质量达标,我们也将进一步提升翻译质量。

我们为 Google 翻译新增了24种新语言

今天,我很激动地宣布,我们为 Google 翻译新增了 24 种新语言,包括首批增加的美洲原住民语言。共计有 3 亿多人在使用这 24 种语言,这样的突破正在推动我们获取知识和使用电脑的方式发生根本性转变。

Google Maps 新升级

许多关于我们这个世界的可知信息都超越了语言的范畴——它们存在于我们周围的物理和地理空间中。超过 15 年来,Google Maps 一直致力于将这些信息以丰富且有用的形式呈现出来,以帮助用户导航。AI 的进步正在将这项工作推向新的高度,无论是将我们的覆盖范围扩大到偏远地区,还是重新设想如何以更直观的方式探索世界。

AI 的进步有助于绘制偏远和农村地区的地图

到目前为止,我们已在世界各地绘制了大约 16 亿座建筑和超过 6000 万公里的道路。由于缺乏高质量的图像和清晰的建筑类型和地貌特征,以前一直难以绘制一些偏远地区和农村地区的建筑和道路信息。为了解决这个问题,我们正在使用计算机视觉和神经网络技术,从卫星图像中探测建筑物。自 2020 年 7 月以来,Google Maps 上的非洲建筑物数量增加了 5 倍,从 6000 万幢增加到了近 3 亿幢。

今年,我们在印度和印度尼西亚绘制的建筑物数量也增加了一倍。在全球范围内,Google Maps 上超过 20% 的建筑物都已经使用这些新技术进行了探测。在此基础上,我们还向公众公开了非洲的建筑物数据集,联合国和世界银行等国际组织已经在使用这些信息,以更好地了解当地人口密度,并提供支持和紧急援助。

Google Maps 中的沉浸式视图将航拍和街景图像融合

我们也为 Google Maps 带来了新的功能。利用 3D 绘图和机器学习技术的进步,我们正在融合数十亿张航拍和街景图像,以创建一个新的高保真的地图。我们将这些突破性的技术结合在一起,为用户提供了一种沉浸式视图的新体验,使用户能够以前所未有的方式探索一个地方。

让我们去伦敦看看吧。假设用户计划和家人一起参观威斯敏斯特。用户现在可以直接从手机上的 Google Maps 获得这种身临其境的视野,还可以在景点周围移动......这就是威斯敏斯特大教堂。如果用户想前往大本钟,那么可以在地图上看到去往大本钟的道路交通是否拥堵,甚至可以看到天气预报。如果还想在参观期间吃点东西,用户可以查看附近的餐厅,并且到餐厅的里面看看。

令人惊奇的是,这并不是有一架无人机在餐厅里飞行拍摄——这是我们使用神经渲染技术,仅通过图像来创造的体验。Google Cloud Immersive Stream 让这种体验可以在几乎所有智能手机上运行。这项功能将于今年晚些时候在 Google Maps 中针对全球部分城市推出。

Google Maps 的另一个重大升级是我们推出了环保路线。这项功能已于去年落地,它能够为用户显示最节约油耗的路线,提供更加节约并且减少碳排放的选择。环保路线已经在美国和加拿大推出,用户已经按照这些路线行驶了约 860 亿英里,减少了约 50 万公吨的碳排放,相当于路面上减少了 10 万辆正在行驶的汽车。

环保路线将于今年晚些时候扩展到欧洲

我很高兴与大家分享,我们正在将这项功能扩展到更多的地方,包括在今年晚些时候将扩展到欧洲。在柏林地图的示例中,用户可以选择仅慢三分钟的路线,将油耗降低 18%。这些微小的决定将产生巨大的影响。随着这项功能扩展至欧洲及其他地区,我们预计到今年年底可以节约的碳排放量将增加一倍。

我们同样在 Google Flights 上增加了一个类似的功能。当用户搜索两个城市之间的航班时,我们也会向用户显示碳排放估值以及价格和时间表等其他信息,让用户轻松选择更加环保的航班。Google Maps 和 Google Flights 中的这些环保功能是我们非常重要的目标,即让 10 亿人通过我们的产品做出更可持续的选择,我们非常高兴能够看到这些进展。

YouTube 新功能帮助用户轻松访问视频内容

除了 Google Maps 之外,视频正在成为我们分享信息、互相交流和学习必不可少的载体。很多时候用户在进入 YouTube 后,是希望在 YouTube 中找到一个视频中的特定片段,我们希望帮助用户更快地获取所需信息。

去年,我们推出了自动生成的章节,让用户可以更轻松地跳转到最感兴趣的部分。这对创作者来说也是很棒的功能,因为它节省了创作者制作章节的时间。我们现在正在应用 DeepMind 的多模式技术,这项技术可以同时使用文本、音频和视频,并以更高的准确性和更快的速度自动生成章节。有了这个功能,我们现在的目标是将自动生成章节的视频数量增加 10 倍,从目前的 800 万到明年的 8000 万。

通常,了解视频内容的最快方法是阅读它的脚本,所以我们也在使用语音识别模型来转录视频。现在所有 Android 和 iOS 的用户都可以获取视频的脚本。

YouTube 上的自动生成章节

接下来,我们将把 YouTube 上的自动翻译字幕应用到移动设备上。这意味着观众现在可以获取 16 种自动翻译的视频字幕,创作者也可以借此吸引全球观众。

Google Workspace 帮助提升工作效率

正如我们使用 AI 来改进 YouTube 的功能一样,我们也正在将 AI 构建到 Workspace 系列产品中,以帮助人们提升工作效率。无论你是在小型企业还是大型机构工作,可能都需要花费大量时间阅读文件。也许你现在就回想起了当你有一份 25 页的文件要阅读,而会议将在 5 分钟后开始的那种恐慌。

在 Google,每当我收到一份长的文件或电子邮件时,我都会在顶部寻找“TL;DR”——“太长未读"的缩写。这让我们想到,如果更多的事情可以有“TL;DR”,生活不是会更好吗?

这就是为什么我们为 Google Docs 引入了自动总结功能。将我们其中一个机器学习模型应用在文本总结功能种,Google Docs 将自动解析单词并提取出要点。

这标志着自然语言处理的一个大飞跃。总结需要理解长段落、压缩信息并生成语言,而这些已经超出过去最好的机器学习模型的能力。

而文档只是一个开始。我们正努力将总结功能引入 Google Workspace 的其他产品。在接下来的几个月里,Google Chat 将使用该功能,为聊天对话提供摘要,帮助用户迅速加入群聊,或回顾重点信息。

在未来几个月内,我们将在 Google Chat 中加入总结功能

而且我们正在努力将转录和总结功能引入 Google Meet。这样,用户可以快速补上重要会议中错过的部分。

改进 Google Meet 视频

当然,很多时候你真的非常希望有一个虚拟房间,可以让你和别人待在一起。这就是为什么我们在 Project Starline 的启发下,继续提高音频和视频质量。我们在去年的 I/O 大会上介绍了 Project Starline。我们一直在 Google 的各个办公室进行测试,寻求反馈并为未来改进技术。在这个过程中,我们发现了一些可以立刻应用于 Google Meet 的技术。

Project Starline 启发了机器学习驱动的图像处理,可以自动改善 Google Meet 的图像质量。而且这项技术适用于所有类型的设备,因此无论你在哪里,都能展现你的最佳形象。

机器学习驱动的图像处理,自动提高了 Google Meet 的图像质量

我们还为 Google Meet 带来了摄影棚规格的虚拟灯光。你可以调整灯光的位置和亮度,所以即使用户身处黑暗的房间或坐在窗前仍然可以被清晰看到。我们正在测试这项功能,以确保人像更加真实,这也是我们在 Pixel 手机上的 Real Tone 和 Monk Scale 所做的工作的推进。

这些只是使用 AI 改进我们产品的其中一些方式:使产品更有帮助,更容易获得,并为每个人提供创新的新功能。

今天在 I/O 大会上,Prabhakar Raghavan 分享了我们如何帮助人们利用 Google Search 以更直观的方式找到有用的信息

通过计算使知识更易获得

我们已经谈到了我们如何推进知识的获取作为我们使命的一部分:从更好的语言翻译到改进的跨图像和视频的搜索体验,到使用地图对世界进行更丰富的探索。

现在我们致力于通过计算使这些知识更容易获得。我们在计算方面所走过的旅程令人兴奋。从桌面到网络到移动设备到可穿戴设备的每一次转变,以及环境计算都使知识在我们的日常生活中更加有用。

尽管我们的设备很有帮助,但我们不得不相当努力地去适应它们。我一直认为应该由计算机来适应人,而不是人来适应计算机。我们将继续追寻这方面的进展。

这里是我们如何利用 Google Assistant 使计算更加自然和直观地呈现。

推出 LaMDA 2 和 AI Test Kitchen

我们研发的用于对话应有的生成语言模型 LaMDA 的 Demo,以及 AI Test Kitchen

我们在继续努力提升人工智能的对话能力。对话和自然语言处理都能让人们以更简单的方式使用计算机。大型语言模型是实现这一目标的关键。

去年,我们发布了 LaMDA,这是一个用于对话应用的生成语言模型,可就任何主题展开对话。今天,我们很高兴能公开 LaMDA 2,Google 目前打造的最先进的对话 AI。

目前,这些模型的实际应用还处于初始阶段,我们有责任去不断完善它们。为了取得进展,我们需要使用者体验技术并提供反馈。我们已经向数千名愿意参与测试和了解其功能的 Google 同事们开放了 LaMDA,显著提升了它的对话质量,减少了不准确或冒犯性的回复。

这就是我们要研发 AI Test Kitchen 的原因,这是一种与更大范围的用户一起探索 AI 功能的新方式。AI Test Kitchen 有数种不同的体验方式,每种方式都旨在让用户了解自己在现实生活中如何使用 LaMDA。

第一个 Demo 是“想象”,测试模型是否可以理解用户提供的创意,生成富有想象力的相关描述。这些体验方式不是产品,只是让我们和你能一起探索 LaMDA 能做什么。用户界面非常简单。

假设你正在写一个故事,需要一些灵感。也许你的角色之一正在探索深海,那么你可以问 LaMDA,在这种情境下会有什么感觉。在此,LaMDA 描绘了马里亚纳海沟里的一个场景,它甚至还可以即时生成后续问题。你可以让 LaMDA 想象一下那里可能生活着什么样的生物。需要强调的是,我们并没有为一些特定话题,比如潜水艇或生物发光进行手动编程,而是 LaMDA 自己根据训练数据整合了这些概念。这就是为什么你几乎可以询问任何话题:土星环,甚至是“由冰淇淋制成的星球”。

不跑题是语言模型的一大挑战。在打造机器学习体验的过程中,我们希望它既足够开放,让人们能够探索好奇心会把他们带到哪里,又集中于话题本身。我们的第二个 Demo 展示了 LaMDA 如何做到这一点。

在这个 Demo 中,我们设置模型专注于与狗相关的主题。它首先生成了一个能开启对话的问题:“你有没有想过为什么狗这么喜欢玩捡东西?”如果你问一个后续问题,你会得到更细化的答案:狗觉得很有趣,这和狗的嗅觉和狩猎感有关。

用户可以就任何方面展开后续对话。也许你对狗的嗅觉的工作原理感到好奇,并且想更深入地研究。那么,你也能得到专门的回复。无论你问什么,LaMDA 都会努力将对话限定在与狗相关的这一话题范围内。如果我开始问板球相关的问题,那么模型可能会以一种有趣的方式将对话带回狗身上。

保持不离题是个很棘手的挑战,要想使用使用语言模型打造有用的应用程序,这是很重要的一个研究领域。

AI Test Kitchen 的这些体验表明了语言模型有帮助我们进行计划、了解世界和完成很多其它事情的潜力。

当然,在这些模型真正有用之前,还需要解决一些重大挑战。虽然我们提高了安全性,但该模型仍可能生成不准确、不适当或冒犯性的回应。这就是我们积极邀请用户提供反馈的原因,这样他们就可以反馈问题。

我们将按照 Google AI 的原则进行所有工作。我们将不断迭代 LaMDA,在未来几个月逐步开放,并仔细、广泛地评估利益相关者的反馈——从 AI 研究人员和社会科学家到人权专家。我们将把这些反馈整合到 LaMDA 的未来版本中,并随时分享我们的发现。

将来,我们计划在 AI Test Kitchen 中添加其它新兴 AI 领域。你可以在 g.com/AITestKitchen 中了解更多。

让 AI 语言模型更强大

LaMDA 2 拥有不可思议的对话能力。此外,为了探索自然语言处理和 AI 的其它方面,我们最近还公开了新模型 Pathways Language Model(PaLM)。这是我们迄今为止研发的最大规模的模型,基于 5400 亿参数训练而成。

PaLM 在许多自然语言处理任务上都有着突破性的表现,例如从文本生成代码,回答数学问题,甚至解释一个笑话。

PaLM 通过扩大模型规模实现了这一点。当我们将这种大规模模型与一种名为“思维提示链(chain-of- thought)”的新技术结合起来时,结果是令人充满希望的。“思维提示链”让模型可以将需要多步解决的问题转化为一系列的中间步骤来处理。

让我们以一个需要推理的数学问题为例。通常,我们在使用模型前需要先以其它问题和答案训练它,然后再提问。在这个例子里,问题是:五月有多少个小时?可以看到,模型并没有给出正确的答案。

在“思维提示链”中,我们给模型输入一对“问题—答案”,同时解释了答案是如何得出的。这有点像你的老师一步一步地向你讲解如何解题。现在,如果我们再问模型“五月有多少个小时”或者其它相关问题,它能给出正确答案和解答过程。

“思维提示链”技术让模型能更好地进行推理,给出更准确的答案

“思维提示链”大大提高了 PaLM 的准确性,让它在包括数学问题在内的多个推理基准测试(reasoning benchmarks)中达到了最顶级水平。我们在不改变模型训练方式的情况下完成了这一切。

此外,功能强大的 PaLM 还能做到更多。例如,网络上现在可能没有足够多的以你所使用的语言提供的信息。更令人沮丧的是,你所搜寻的答案可能就在某处,只是没有以你看得懂的语言呈现,而PaLM 提供了一种有望让每个人都更容易获得知识的新方法。

让我展示一个示例,PaLM 可以用孟加拉语(一种有 2.5 亿人使用的语言)回答问题,就像我们用孟加拉语的问题,以及孟加拉语和英语的答案训练了它一样。

就是这样,现在我们可以开始用孟加拉语提问:“孟加拉国的国歌是什么?” 顺便说一句,答案是“Amar Sonar Bangla”——PaLM 也答对了。这并不令人惊讶,因为在孟加拉语资料中很显然能找到相关答案。

你还可以尝试一些不太可能以孟加拉语找到相关信息的问题,比如:“纽约流行的披萨配料是什么?”该模型再次以孟加拉语做出了正确回答。虽然它的回答到底有多“正确”,这一点很可能在纽约人之间引发辩论。

令人印象深刻的是,PaLM 从未见过孟加拉语和英语之间的对译。我们也从未训练过它如何回答问题或翻译!该模型自己将所有功能结合在一起,可以用孟加拉语正确回答问题。我们可以将这些技术扩展到更多的语言和其他复杂的任务。

我们对语言模型的潜力非常乐观。有朝一日,我们希望我们能以用户说的任何语言回答更多问题,让知识在 Google Search 和其它 Google 的工具中更容易被获取。

推出全世界最大的开放机器学习中心

我们今天所分享的进步之所以能成为现实,离不开我们在基础设施方面的持续创新。我们最近还宣布了 Google 计划向美国各地的数据中心和办公室投资 95 亿美元。

我们最先进的数据中心之一位于俄克拉荷马州的梅斯县。我激动地宣布:我们将为 Google Cloud 客户推出全世界最大的开放机器学习中心。

我们最先进的数据中心之一,位于美国俄克拉荷马州梅斯县

此机器学习中心拥有 8 个 Cloud TPU v4 芯片,是 Google 定制,建在为 Google 最大的神经模型提供支持的网络基础设施之上,能提供接近 9 x 1018 的算力,可以为 Google 的客户提供前所未有的运行复杂模型和工作负荷的能力。我们希望这将推动众多领域的创新,从医学、物流,到可持续性发展等等。

说到可持续发展,该机器学习中心已达到 90% 的无碳能源运营。这能帮助我们实现自己的目标,即到 2030 年时,旗下所有的数据中心和园区实现全天候无碳运营,我们要成为第一个做到这一点的大公司。

在投资数据中心的同时,我们也在努力创新 Google 的移动平台,这样更多的数据处理就可以在本地设备上进行。Google 定制的 Google Tensor 芯片是朝此方向迈进的重要一步。Pixel 6 和 Pixel 6 Pro 旗舰手机已搭载 Google Tensor 处理器,让你的手机直接拥有 AI 功能,包括我们所应用的最好的语音识别技术。这也是向“让设备更安全”这一目标迈出的一大步。与 Android 的 Private Compute Core 结合后,这项技术可以直接在设备上运行数据驱动的功能,保护你的隐私。

不管是至关重要还是微不足道的时刻,每天都有人向我们的产品寻求帮助。让这一点成为可能的关键就是在每一步都保护用户的隐私信息。尽管技术正变得日益复杂,但我们的产品是安全的,从设计上保护隐私,让用户拥有控制权,因此,在让全世界更多人能安全上网这一点上,我们比其他人走得更远。

我们今天还分享了 Android 等平台的更新,这些更新正通过智能手机和其他可连接设备,像电视、汽车、手表,向数十亿人提供访问、连接和信息。

我们还分享了最新的 Pixel 系列产品,包括Pixel 6a, Pixel Buds Pro, Google Pixel Watch, Pixel 7 和 Pixel 平板电脑,所有产品均融入了环境计算的设计。我们也很高兴能通过一系列设备更好地为用户提供帮助。

计算技术新前沿——增强现实技术

今天,我们讨论了所有正在改变我们的技术,它们改变了我们使用计算机的方式和获取知识的方式。无论何时何地,只要有需求,我们都可以找到互联互通、紧密协作的设备。而对话界面的加持更为完成任务提供便利。

展望未来,信息技术领域有了一个新战线,它拥有推动现有技术继续发展的潜质,它就是增强现实技术(AR)。Google 在 AR 领域投入颇多:我们已将 AR 引用到许多产品当中,包括Google Lens、多重搜索(multisearch)、场景探索(scene exploration)以及 Google Maps 的 Live Views 和沉浸式视图功能。

AR 各项性能已应用于手机终端,其神奇之处在于它可以在现实世界中为我们带来最真实、自然的体验,仿佛我们并非在使用科技。

最令人振奋的是 AR 的潜力,也就是它能使我们去关注真实的世界、真实的生活。要知道,我们所生活的这个世界本就精彩无限!

我们基于现实世界进行创作设计,绝不脱离现实,这一点至关重要。AR 恰恰是能够帮助我们实现这种设计理念的新方法。

以语言为例,语言是人与人之间沟通的基础。然而,如果对方讲着另一种语言,或者会话的一方有听觉障碍时,沟通就变得困难重重。我们来看看当我们将最新技术应用在翻译和语言转录中,并在早期测试原型中呈现出来时,会出现什么效果。

这个视频 中可以看到人们能够自然、顺畅地与他人沟通,他们的脸上洋溢着喜悦。理解与被理解,那联通的一刻正是我们在知识和计算机技术方面所关注的,是我们通过产品帮助人们实现的,也是我们每日奋斗追逐的目标。

每一年,我们都在向我们的终极使命迈进,未来的路还很长。Google 真切地为此感到振奋!我们抱以乐观的态度,坚信我们取得的突破将引领我们完成使命。感谢所有与会开发者、合作伙伴和消费者。我们期待与各位一起共筑未来。