深度学习

553 阅读17分钟

作者:王慧(沪江高级教育产品经理)

本文原创翻译,有不当的地方欢迎指出。转载请指明出处。

译自麻省理工技术评论   Robert D. Ho




 

拥有强大的计算能力后,计算机现在学会了“看”到物体和“听”懂语言,甚至实时翻译。人工智能终于具备真正的智能了。


当Ray Kurzweil去年七月约见Google CEO Larry Page时,他并没有去Google工作的打算。作为一位成就卓著的发明家和未来机器智能学家,Kurzweil只是想和Page探讨他即将出版的新书《如何制造一个大脑》(How to Create a Mind)。


同时,Kurzweil还和Page谈到了自己新的想法,创办一家科技公司-用来研发新书中的人工智能:一个可以理解的语言,然后根据信息做出自己的推论和决策的智能大脑。



《How to Create a Mind》- Kurzweil


Page在此之前已经阅读了Kurzweil的书稿,对他颇为赞赏。不过Page告诉Kurzweil,建造这个智能大脑的基础,是需要Google这样规模的公司才具备的大数据和信息处理能力。“我可以给你一些数据访问权限,”Page告诉Kurzweil。“但是,对于一家创业公司,想要获得Google这样的资源还是很不容易的。”因此,顺理成章的,Page邀请Kurzweil加入Google,Kurzweil也并没有花太长时间决定。2016年1月, Kurzweil就任工程部总监,开始为Google工作。“这是我50年来专注于人工智能的孤军奋战的终点,也是全新的开始”他说。


Google吸引到Kurzweil的不只是数据资源,还有Google已在人工智能的一个分支--深度学习方面作出的惊人的进展。




度学习软件通过模仿大脑神经元中发生的活动,从而模拟占据大脑皮层80%的沟回中发生的思维过程。


在现实中,这样的模拟技术已经可以做到学习和处理庞大的声音、图像和其他信息,转化成它可以理解的数据模式,然后实现自我学习循环。


机器学习的基本思路 - 即软件可以模拟大脑皮层的神经元矩阵创造人工“神经网络” -已经有几十年的历史了,这个思路虽然在人工智能发展初期获得了不少此领域的突破,也经历了重重障碍。但随着数学公式的改进和日益强大的计算能力,计算机科学家们现在可以模拟比之前层级多很多的神经网络模型,也因此有了新的突破。


随着这项技术的深入,语音和图像识别精准度都在飞快提升。去年六月,Google把从YouTube视频抓取的10万张图片进行识别分类,与之前相比,Google的深度学习系统对于图形的识别能力提升了一倍。Google还在新推出的Android手机上应用了深度学习技术,用于提高语音识别的精准率。


今年10月份,微软首席研究官Rick Rashid在中国的语音软件演示让与会者叫绝。语音软件首先将他的演讲转录成英文文本,然后翻译成中文,最后软件模拟了他的声音用普通话进行演讲,整个过程错误率不到7%。同一月份,因成功发现用于研制新药物的细胞分子,一个由两名教授三名研究生组成的团队荣获Merck大奖。团队也使用了深度学习的方式,逐步聚焦和发现了他们的目标细胞分子。




Google尤其成为深度学习和相关的人工智能人才的吸铁石。今年三月份Google收购了由多伦多大学的计算机科学教授Geoffrey Hinton创立的创业公司,这位教授也是赢得了Merck大奖的深度学习领域的科学家。Hinton是一位人工智能领域的学者,他目前把自己的时间平均花费在Google和大学科研室,他说这样的安排可以做到“把教研领域的想法应用到诸如图像识别、搜索和自然语言处理等实际场景中去。”


这一切让人欣喜的发展让本来抱谨慎态度的的人工智能研究者们充满信心,人工智能可能真的会从科幻小说的故事变成现实了。事实上,人工智能正在逐渐改变着通信业、数据分析业、医药业、制造业以及交通行业。比如IBM就在运用一些深度学习技术开发一款新型电脑,这款名为“危机!”的智能电脑已经在帮助医生做出更精确的决策。微软在其Windows手机和Bing语音搜索也已经部署了深度学习的技术。


想要把深度学习技术运用到语音和图像识别之外的领域,需要更多的研发理论、数据处理能力以及软件研发能力等方面的突破。我们需要花好几年,甚至几十年 - 如果真的可以等到那一天的话,才能看到一台真正自己会思考会决策的机器。但是好消息是,正如微软美国研究院主管Peter Lee谈到的,“深度学习重新点燃人们对于突破人工智能重大挑战的信心。”




那么,如何创造一个大脑?


事实上,应对创造人工大脑这种挑战的方法还是不少的,虽然这些方法有的相互排斥。其中一种方式是把关于这个世界的信息和规则写成程序给计算机去学习,比如声音信息,以及如何定义边缘等这种规则信息。这种方法很费劲,因为这需要程序员很辛苦地编写大量代码。这种方式耗费了大量的时间但是仍然无法解决一个很大的问题:机器不能识别这个世界上大量无法明确定义的模糊信息和无法进行界定的规则; 因此,这种方式的应用被限制在很狭窄的领域、可控制的范围:比如说出特定的词汇查询你手机已有的菜单系统。




人工神经网络是在人工智能研究开始不久之后( 20世纪50年代)开始研发的,当时看起来前途无量,因为它在模拟大脑的工作方式,虽然是大大简化版的大脑。首先它用程序映射出了一套虚拟神经元,然后给它们之间的连接随机分配数值,或者“权重”。这些权重确定每个虚拟神经元如何回应一些数字化后的特征(数值取自从0到1之间)例如一条边缘或蓝色图像中的阴影,或测量一个音素(发音中的最小独立单位)在某个频率的特定能量水平。


利用大量数字化图像以及包含不同音素的声波,程序员会训练神经网络识别形象和声音元素。如果神经网络没有准确地识别某一特定图案或声音,程序员将用算法调整权重。这些训练的最终目标是让网络相对稳定地识别语音模式或一组图片,正像是人类可以做到的。比如,在发音中识别音素“d”或者根据认知判断一只狗的形象。这个过程与人类的认知学习是几乎相同的方式,小孩子学会识别“狗”这个形象就是通过学习有关“狗”的各种形态细节:典型行为如吠叫、毛茸茸的特质、以及其他人类把这种动物叫做“狗”这样的信息。


但早期神经网络一次只可以模拟数量非常有限的神经元,所以它们无法识别非常复杂的模式。上世纪70年代陷入胶着状态,一直未有很好的突破。


在80年代中期,Hinton通过改良已有的方法,即更好地利用人工虚拟神经元塑造多层神经网络和深层模型,这种方法激发了人们对于神经网络技术的重视。但是这种技术仍然需要大量人工参与:这些数据在在送入人工神经网络之前,程序员需要把每项数据打上标签。另外,复杂的语音或图像识别需要比当时的技术复杂得多的计算能力。


在过去的十年里,Hinton和其他研究人员提出了一些基本概念上的突破。在2006年,Hinton开发出更有效的方式来训练神经元的多层层级。第一层级首先获悉最简单的功能和信息,如图像中的边缘或语音的最小单位。这些信息的获取方法是通过分析数字化像素或声波的组合来实现:通过分析频率获取高于正常出现次数的像素和声波。一旦第一层级可准确识别这些信息,他们把这些信息传导到上一层级,此层级可以做到自我训练认知更复杂的信息,例如一个拐角或语音的声音的组合。经过多层网络的不断总结和优化,最终人工神经网络系统可达到稳定的识别音素或实物的目标。




这种复杂的实物,比如猫。去年六月,Google展示了目前为止最大的神经网络之一,它有超过十亿的连接组成。由斯坦福大学计算机科学教授Andrew Ng和Google研究员Jeff Dean率领的研究小组训练系统识别1000万张随机选择的YouTube视频映像。软件模型中一个虚拟神经元专注于搜寻猫的图像。其他神经元专注于如人脸、黄色的花朵,和其他图像的识别。通过软件系统的自我深度学习,该系统成功识别了没有人为定义或标签过的精确对象。




真正让一些人工智能专家感到震惊的,是在图像识别技术方面的大幅度提升。该系统正确归类和识别YouTube图片中16%的对象和主题。这可能听起来没那么令人印象深刻,但它比以前的方法的识别效率提高了70%。而且,Dean指出,系统需要区分多达22000个类别的物体; 要正确区分有些物体难度不低,比如区分两个类似品种的刀鱼。这种细微区分对于大多数人类来说也是很大的挑战。当如果调整图像分类到1000多个大类,准确率上升至高达50%以上。


大数据


实验训练多层虚拟神经元需要至少1.6万台计算机的处理能力,而Google为其搜索引擎开发的计算设施正具备这样的能力。机器学习创业公司Vicarious的联合创始人,Dileep George认为在人工智能的最新进展至少有80%可以归功于计算处理能力的飞跃。


除了其数据中心的庞大规模,Google的深度学习技术也从它的多机协同计算任务的方法受益。这是Dean在他14年服务于Google过程中逐步完善的方法。它大大加快了计算速度和深度学习神经网络训练速度,从而使Google能够运行更庞大的网络和训练更庞大的数据。



深度学习已经在提升智能手机上的语音搜索方面发挥大作用。直到去年,Google的Android软件使用的语音搜索功能并不强大。但是,去年七月,为了Android的新版本的发版,Dean和他的团队更换了一部分基于深度学习的语音系统。因为多层神经元对于一个声音的许多变体做了更精确的训练,该系统可以更可靠地识别声音的细微区别,特别是在嘈杂环境中,如地铁上。结果,新版本的错误数量下降了25%,效果如此之好,许多评论者认为,现在Android的语音搜索功能比Apple有名的Siri语音助手更强大。


尽管有不小的进展,并不是每个人都认为深度学习可以推动人工智能发展出与人类的智慧媲美的智能。一些批评人士说,深度学习和人工智能总体来讲过度看重数据计算能力,而忽略太多大脑的生物学原理。


作为Palm Computing的创始人, Jeff Hawkins正是这样的批评人士之一,他最新的发明,Numenta,正是基于生物原理,而非深度学习技术的机器学习系统。Numenta的系统可以预测能源消费模式和器械装置,比如风车,出现故障的时间。




在2004年的《智能》一书中,Hawkins探讨了大脑的运作机制,以及如何以此为指导建造人工智能,他认为深度学习并未考虑到大脑信息处理中的时间概念。他说,人的大脑的学习能力不仅处理感官数据流,还依赖于我们在回忆基础上建立序列模式的能力:当你看一个猫咪的搞笑视频时,整个事件在记忆中的存储是动态的,而不是一系列像Google在其实验中使用的静止图像。“Google的态度是:大量的数据可以弥补一切不足。”Hawkins批评道。


不过,虽然大数据不能弥补一切不足,像Google公司这样的计算能力和资源仍然是不可忽视的。深度学习拥护者们认为它们是极其重要的,因为大脑本身仍然比目前的任何人工智能神经网络要复杂的多。“你至少要有个起点,而那就需要大量的数据资源和计算能力” Hinton说。




下一步?



尽管Google并没有将深度学习在其未来的应用公之于众,这项技术的前景还是很有吸引力的。显而易见的例子是:更好的图像搜索技术将能应用在YouTube上。另外,正如Dean所言,深度学习可以利用从英语得来的音素数据,更快地训练系统识别其他语言的语音。更先进的图像识别技术还可能运用在Google的自动驾驶汽车上。此外,搜索技术和精准广告的效果会得到提升:这两项技术的提升意味着越来越精准的机器对于人们搜索意图的推测和判断能力,你的搜索结果甚至可能比你自己更先知道你想要什么。


这也正是让今年65岁的Kurzweil一直着迷的事情。他对于人工智能一直很有远见。在高中时代,他曾经写过一个软件,可以让计算机创作各种古典风格的音乐。他在1965年的一个脱口秀节目“我有一个秘密”中展示了这款原创的音乐软件。从那时起,他的发明创造囊括了人工智能领域的很多第一---印刷文本的语音阅读机,能够扫描任何字体的印刷文字并将其数字化的软件,可以模仿管弦乐器声音的音乐合成软件,和一个能够识别大量语汇的声音识别系统。




今天,Kurzweil设想了一个“虚拟网络知心朋友”的角色,在你的允许下,他可以侦听你的电话交谈,阅读你的电子邮件,并跟踪你的一举一动,这位虚拟朋友会像你“肚子里的蛔虫,”在你没有提出问题之前就给你答案。这项发明并非Google的近期目标,但这与Google联合创始人Sergey Brin在该公司初创时期的想法一致:他想建立创造能够理解人类感情的人工智能,就像是HAL在2001:太空奥德赛中的角色,只是它不会去杀人。


Kurzweil目前的目标是实现计算机理解,甚至运用自然语言。“我的任务就是实现计算机对于自然语言的理解,然后运用它做一些有用的事情:比如更精准到位的搜索,或者更准确的回答问题,”他说。从本质上讲,他希望打造的是一台更具智慧和更灵活的IBM的Watson,Kurzweil钦佩Watson具备的超强理解力,比如它能理解刁钻古怪问题且应对自如。比如:“什么是蛋白酥沫式的演讲?回答:“一篇冗长,无聊的演讲如同蛋白酥般空洞、多泡。”


Kurzweil不是只专注于深度学习,他对语音识别技术也颇有研究,其做法同样基于大脑的运作方式。他希望能够将词汇、短语、句子,包括模糊的语义进行建模,虽然挑战很大。不过他认为:“语言和语义其实可以用一种可视化的方式来表达。”





要达到这一点需要一种更综合的分析方式将句法图像化。Google已经利用这种综合分析方式来提高翻译中的语法运用。要让计算机理解自然语言还需要它们掌握人类认为是常识的意义。Kurzweil将利用“知识图谱”来做到这一点,这是Google涵盖高达7亿多万个主题的分类信息图,它包括了地点、人、相关信息,以及数十亿条它们之间的关联。Google2015年推出这项服务,用于为研究者们的查询提供答案,而不仅仅是链接。


最后,Kurzweil计划采用深学习算法来帮助计算机处理的“语言的边界和模糊之处。”这项工程听起来很漫长,而事实也的确如此。“自然语言理解并不是某个时刻能够完成的目标,它可能比搜索还更加没有止境,”他说,“这可能是个永远不会结束的工程。”


虽然Kurzweil的愿景仍然需假以时日才能变为现实,但是深度学习却已经激发了语音和图像识别领域之外的技术应用。比如,药物研制方面。Hinton在Merck竞赛中意外获胜清楚地表明在药物研制领域,深度学习作为一项实用工具能给大家带来的超预期的意外惊喜。


深度学习的应用还远远不会止步于医学领域。微软的Peter Lee认为:在机器视觉技术方面,深度学习已经显示出潜在的巨大价值;机器视觉技术可以用于工业检测和“引路机器人”的研发。他还预测:经过深度学习的神经网络可以应用到研发个人身体健康检测传感器,用于预测人身体可能出现的病患;而利用遍布整个城市的传感器则可以训练深度学习系统,来预测可能发生的交通拥堵。


在人类大脑建模这样高难度领域,一种技术无疑很难解决所有的挑战。但至少在目前,深度学习是人工智能领域最领先的方式。“深度学习,”Dean说,“是认知这个世界的一个真正强大的隐喻。”


想要了解更多人工智能相关信息,敬请扫码关注EduNova~


 EduNova(教学创新研习社)致力于互联网教学思维的传达与创新。 分享最新的教育理念研究成果,最前卫的线上教学方式展示。 让您深入了解教育与技术结合的过程与乐趣。


原文地址https://www.technologyreview.com/s/513696/deep-learning/