人工智能的数学基础(四)
原文:
zh.annas-archive.org/md5/2493e49e788325932f4968ea203e1f3d译者:飞龙
第十四章:人工智能、伦理、数学和政策
折磨数据足够多,它就会承认任何事情
诺贝尔奖得主、经济学家罗纳德·科斯(1910-2013)
人工智能伦理是一个广泛而深刻的话题,它正在成为哲学和人工智能领域交叉的新领域。在本章中,我们只能浅尝辄止,强调一些问题和可能的解决方式,但留下了许多同样重要的问题。然而,本章传达了一个信息,我不希望读者错过:
我们需要更多人同时了解人工智能和政策。
在我从数学到人工智能应用的学习过程中,我发现人工智能不应与政策脱钩,两者应该共同发展。我可以坐下来写下无数例子,说明与人工智能技术相关的伦理考虑,比如数据安全、隐私、监视、民主、言论自由、劳动力考虑、公平、公正、偏见、歧视、包容性、透明度、监管和武器化人工智能,但这不是我对待这个主题的方式。我对这些问题的看法略有不同,我亲眼看到人们如何在战乱地区对人群试验新武器,然而政府和媒体要么否认,要么不评论,要么说这些不幸事件是错误,会进行调查,然后大家都继续往更好的方向发展。当有一项新技术影响到人们规模时,开发这项技术的人最有资格了解其影响,无论是好是坏。因此,他们应该直接与政策制定者合作,以规范其使用。此外,如果有一项技术或其他事件对社会造成巨大破坏,我们可以迫使人们思考、撰写和遵守政策。巨大的破坏不是人工智能本身,也不是人类目前产生和拥有的数据量,比如 Facebook 拥有的数据,NASA 对太空的调查,人类基因组计划,或者我们的 Apple 手表,而是投入到这项技术中的资金,更重要的是公众的关注。
我曾生活在一个小而完美的数学泡泡中,那里的事物只能是黑白分明、逻辑正确的,如果我们不理解某些数学是如何运作的,我们总是可以说服自己,只要多花点时间就能学会。让我眼界大开的是与我们城市的消防部门和交通部门合作。当我的学生在市政厅向市政官员、公共安全领导和决策者展示时,我意识到作为技术专家与他们的数据合作,我们有能力告诉他们我们的数学模型可以做任何事情,无论这些模型是否真的能做到。这个认识对我来说非常可怕。我不是一个受过政策培训的人,我是一个数学人,但我决定必须涉足政策领域。我参与了一些小型政策制定场合,以建立一些政策专业知识(重新制定我大学的招聘政策;主持学院委员会;主持学术政策委员会;参加我大学的指导委员会;开设数据、政策和外交课程;在欧洲开发夏季项目,探讨现代战争面临的人类安全、技术和创业问题;并就此主题发表演讲和举办研讨会)。
我学到了政策不像数学那样,存在许多灰色地带和利益冲突,涉足其危险水域是一场不同的游戏。我了解到建立新政策及其与现有政策的交叉点的复杂性。这与人工智能系统类似,其中持续更新和一致性至关重要,同时保持高效,不至于使自己和系统陷入瘫痪。
我们必须努力制定简明具体的政策。任何有可能影响数百万人的技术,必须由其专家开发,具有类似于应急响应团队的意识和态度,考虑最坏情况并防范。当前情况是,世界领先的技术公司正在加速人类走向一个新的连接和人工智能驱动的世界,而政策和监管正在追赶。然而,人工智能仍在成熟阶段,现在是设计朝向公共利益的政策的理想时机。技术发展不是一些偶然发生在我们身上的随机事件。我们不应该只是被动参与者、接收者或消费者,尤其是我们自己就是数据:我们的互联网习惯,我们的社交媒体帖子,我们的银行交易,我们的医疗记录,我们的血液检测,我们的核磁共振扫描,我们的杂货店购物,我们的优步乘车,我们的家庭恒温器偏好,我们的视频游戏技能,我们的公交车乘车,我们的苹果手表步数和心率计数,我们的驾驶刹车和加速模式,我们的整个生活。这些都被数字化并存储在一些随机建筑物的数据仓库中的随机位置。与进入我们 FICO 信用评分的金融数据不同,后者受到严格监管,今天大部分数字数据是无监管的。一家公司可以将其出售给另一家公司,带有所有其不准确性,新公司将基于这些无监管数据构建模型并做出决策。某人的驾驶习惯是否影响他们是否能进入某个学院?或者决定他们医疗保险的保费定价?他们每天经过的穷困社区的通勤路线呢?那个十年前从某人记录中清除的轻微犯罪呢?它是否已从所有数据集中清除,包括多年前出售给其他公司的数据集?这是否仍然影响着贷款、大学录取、保险费、工作机会等改变生活和生计的决定?谁知道?这是无监管的。当我们选择与一家公司分享我们的数据时,是否有法律禁止将这些数据分享或转售给其他公司用于其他用途?
我们可以利用我们庞大的数字数据做好事,但如果没有明智有效的政策和监管,我们不能指望这一点。
良好的人工智能
良好的人工智能应该足够值得信赖,可以在公共和私营部门部署和使用。该领域有一种倾向,花费大量时间定义可解释性、可解释性(显然这两者不同)、公平性、公正性等术语。我认为这种对词汇的过度关注是一种分心。最终目标更为重要:
我们需要信任我们的系统,并使其对需要使用它们的人员可访问和可理解。
为此,我们需要我们的人工智能及其服务和建立在其之上的数据是:
-
安全:随着系统的发展,我们必须继续维护和更新物理和软件安全协议。由于云计算引入了新的安全要求层,因为如今我们的数据和计算都不再发生在我们本地机器的附近。
-
私密:许多应用领域已经制定了正式的隐私概念和标准。在谁拥有数据以及 AI 系统可以出于什么目的使用数据方面还有很多工作要做。我在这里的补充是透明和信息共享:当我们透明地表明我们的系统打算如何使用某些数据,比如医疗数据用于发现新药物,或者创建个性化治疗计划时,人们可能会选择分享他们的数据。目前存在着技术生产者和技术消费者之间的犹豫和不信任文化。我们可以通过传播知识和分享最终目标以及成功和失败的结果来改善这一点。
-
完成了它所建立的目标和所声称要做的事情:有正式的方法可以检查代码是否正确,但我们需要更多关于系统的持续测试,包括边缘情况,并且要公开系统的能力、限制和未经测试的领域。
-
对扰动和噪声具有鲁棒性:对输入的微小扰动不应该导致输出的大变化。当决策依赖于 AI 系统的预测时,这些预测不能是任意的。AI 系统应该能够容忍其输入中的噪声,并且这种容忍度必须被量化。
-
高效:AI 系统的效率应该是理所当然的-它们建立在速度、自动化以及能够处理比以往任何时候都更多的贡献变量的承诺之上。我们需要继续改进现有系统,并关注那些在理论上运作良好但尚未对实际部署高效的系统。
-
公平:许多系统依赖于有偏见的数据,这些数据经过管道传输后会导致不公平的决策。识别数据中的偏见并消除它们是朝着公平方向迈出的第一步。
-
对许多用户来说是可访问和易理解的:当一项新技术对社会有益时,需要使其易于访问、使用和理解。应该有意识地努力使其产业化、商业化,并解决社会部门或社区中处于劣势的人的访问问题。
-
透明:与数据来源、模型能力、用例、限制和文档的透明性至关重要。当这些信息持续且清晰地传达时,人们通常对有缺陷的系统更加宽容。
政策问题
AI 政策开始形成。其目标是利用和最大化 AI 的好处,同时防范其潜在危害。
政策至关重要并产生影响。一个例子是 ClearviewAI 及其隐私问题。ClearviewAI 是一家美国公司,创建并出售给私人公司一款使用从网络下载的数十亿张个人照片数据库的人脸识别软件。最近(2022 年 5 月),它达成了一项诉讼和解协议,同意遵守伊利诺伊州的隐私法,该法赋予人们对其生物特征数据的控制权。ClearviewAI 将主要限制其人脸识别技术供应给执法部门和其他政府机构使用。
另一个例子是海康威视及其监控问题。海康威视是一家中国公司,生产数百万视频监控摄像头,用于超过 190 个国家的用途,从警察监视系统到婴儿监视器。该公司目前面临美国政府的制裁,原因是其与中国政府的密切联系。海康威视在建设中国庞大的警察监视系统中发挥了作用,中国政府利用该系统压制新疆的穆斯林少数民族。美国财政部目前正在考虑将海康威视列入特别指定国民和被封锁人员名单,该名单禁止列入者与美国政府、美国人或美国公司做生意。此外,这些实体或个人的资产也被美国冻结。
对于人工智能政策的有组织努力,可以看看朝着这个方向发展的政府、政府间和全球人工智能倡议的治理:美国的国家人工智能计划,欧盟的人工智能伦理指南草案,阿联酋的人工智能部,英国的艾伦·图灵研究所,加拿大的人工智能 CIFAR 主席计划,丹麦的技术协议,日本的工业化路线图,法国的健康数据中心,德国的自动驾驶和联网驾驶伦理委员会,印度的#AIforAll 战略,中国的全球人工智能治理计划等。
我们可以将与人工智能相关的政策分类为:
-
投资于人工智能研究和培训劳动力;
-
标准和规定;
-
建设坚固和安全的数字数据基础设施。
投资于技能发展和技术产业化。
政府机构正在为人工智能研究、新的人工智能机构、劳动力培训和早期科学、技术、工程和数学(STEM)教育、终身学习和技术发展分配资金。政府还鼓励人工智能技术的产业化和私营部门的采用。此外,政府自身正在投资于数据驱动的倡议和各自部门的人工智能,以进行公共管理改革,并使其运营更加高效和集中化(政府中的人工智能)。
法规和标准
相关法规和标准包括数据安全和使用、自动驾驶汽车等汽车人工智能,以及武器化人工智能。
数据和数字基础设施
高质量的数据对于人工智能按预期工作至关重要。政府正在鼓励开放数据集,并开发平台以安全交换私人数据。还有有意识的努力从人工智能算法和数据集中消除偏见。
会出现什么问题?
在设计新系统或分析现有系统时,我们的一个指导性问题必须是:会出现什么问题?随之而来的是一系列检查点:
-
系统的预期功能是什么?
-
它训练的数据是什么?数据是如何收集的?如何处理噪声和缺失值?
-
谁在数据中可能被最大程度地代表不足?
-
它使用了哪些算法?
-
决策算法的阈值是多少?
-
鉴于这些阈值,谁最有可能受到这些算法决策的伤害?
在这一部分中,我们列举了一些例子(其中包括许多),突出了可能出现问题的事情,我们必须要么防范,要么尝试标准化和规范化。
从数学到武器
本书的一个目标是突出人工智能模型的数学基础。从数学到武器的转变并不新鲜,考虑到许多武器的发展历史(例如原子弹)。这种贡献不仅仅是单向的:军事和防御战略和目标影响了整个数学领域的发展,比如动态规划最初是为了解决军事训练或后勤的调度,以及优化各种资源的分配。
书籍《数学毁灭之武器》(2017)超越了军事武器化,列举了许多有害的方式,这些方式是我们社会目前依赖于进行高度重大和生活改变决策的数学算法。书的最后一章的前几段值得完整引用,因为它们揭示了看似不同领域中部署的算法如何相互作用并影响彼此的结果。它们还揭示了完全相同的算法如何以极其不同的方式影响不同人群。
[…] 我们走过学校和大学,法庭和工作场所,甚至投票站。沿途,我们目睹了“数学毁灭武器”造成的破坏。它们承诺效率和公平,却扭曲了高等教育,推高了债务,促使大规模监禁,残酷地打击穷人几乎在每一个关口,并破坏了民主。似乎合乎逻辑的反应是逐个解除这些武器。问题在于它们互相滋养。贫困人口更有可能信用不佳,生活在高犯罪率社区,周围都是其他贫困人口。一旦“数学毁灭武器”的黑暗宇宙消化了这些数据,它们就会向他们洒下针对次级贷款或营利学校的掠夺性广告。它会派更多警察逮捕他们,一旦他们被定罪,就会判他们更长的刑期。这些数据输入到其他“数学毁灭武器”中,这些武器会将同一群人评分为高风险或易被攻击目标,并开始阻止他们获得工作,同时提高他们的抵押贷款、汽车贷款和各种保险的费率。这进一步拉低了他们的信用评级,创造了一个建模的死亡螺旋。在“数学毁灭武器”的世界中贫穷变得越来越危险和昂贵。
虐待穷人的同样“数学毁灭武器”也将社会舒适阶层置于他们自己的营销隔离区。他们被送往阿鲁巴度假,被列入沃顿商学院的候补名单。对于他们中的许多人来说,世界似乎变得更聪明更容易。模型突出了意大利熏火腿和基安蒂的特价,推荐了亚马逊 Prime 上的一部好电影,或者逐步引导他们到一个曾经是“危险”的社区的咖啡馆。这种静默和个人化的定位使得社会的赢家们看不到同样的模型正在摧毁生活,有时就在几个街区之外。
注意,数学是正确的,对社会的两个部分完全相同,但改变的是模型的输入。回想一下,如果我们想把整本书总结成一句数学句子,那就是:AI 模型的输入特征决定最终输出。贫困和富裕人口,缺乏更好的术语,具有不同的特征,因此他们得到不同的结果。在这个意义上,我们的算法是公平的,计算确切地它们应该计算的内容。我不喜欢提出问题而不提出解决方案,或者至少提出解决方案的想法。也许改善当前情况的一个初始方法是使用来自不同人口群体的数据分别训练我们的算法,这样一个人的贫困将不会成为算法决定他们是否值得信任偿还某笔贷款的因素,而其他真实因素将会起作用。
化学战剂
人工智能模型的破坏潜力甚至可以体现在那些旨在最大程度造福人类的模型上:用于药物发现的生成式人工智能模型。坏人可以滥用这些模型的便利性令人震惊。坏人所需做的只是学习模型的工作原理:首先,模型将分子的结构映射到其在体内的作用方式,然后优化那些最大程度获益和最小程度毒性的分子。坏人可以重新训练模型,将其优化目标从最小化毒性转变为最大化毒性。从数学上讲,这就是在优化问题中颠倒目标函数的符号。这是 Fabio Urbina 及其 Collaborations Pharmaceuticals 团队最近在他们的工作中强调的。为了证明这一点,该团队用这个恶意目标重新训练了他们的模型。仅仅在六小时内,该模型生成了 40,000 种毒素,其中一些是实际化学战剂,这些战剂并不在初始数据集中。
我们很容易得出结论,我们需要有意识、刻意、内省,以及各种形容词来防范这一问题,但并没有明确说明如何做到,因为现实情况是这是一个复杂的问题。但我们如何防范这一问题呢?我个人的看法是,我们应该以非人工智能世界中防范大规模破坏性武器的方式来对待这个问题。没有人能保证坏人不会获得这项技术,但我们的工作是让他们很难将其发展成可部署的武器。
人工智能与政治
TikTok、Facebook 和其他社交媒体平台在政治中的作用难以言表。它们已经影响了选举结果并推翻了政府。机器人可以生成假新闻、虚假历史、虚假评论、虚假页面、虚假推文,并传播政治目的的错误信息。社交媒体公司正在尝试应对这一问题,采用多方面的方法,利用机器学习来检测欺诈或识别传播错误信息的节点,雇佣第三方事实核查组织,致力于改进用户新闻订阅的排名算法,以及其他方式,由于这些公司的运营规模以及有时公司盈利目标与其道德部门之间的利益冲突,结果参差不齐。个性化政治活动,同一政治人物根据其目标受众的不同意识形态来服务,而受众却从未知晓这一情况,是一个真正可能破坏民主的危险。此外,根据新信息,某个州是向左还是向右倾斜,可以分配更多资金来针对选民(再次通过个性化新闻订阅、政治广告仅迎合他们的偏好观点,基于他们的历史偏好以及他们的朋友的偏好),以在竞争激烈的战场地区摇摆他们的选票。这可以实时发生,并影响整个选举的结果。这在政治中一直存在,但在数字时代,这发生在规模上,实时进行,并且几乎没有比有针对性地部署算法支持的巨大数据库更多的努力,了解我们的偏好以及是什么让我们感兴趣、点击、支付、志愿或选举。
生成模型的意外结果
大型生成语言模型和文本到图像模型是在互联网规模数据上训练的,继承了互联网规模的社会偏见、歧视和有害内容。这最好通过Imagen关于他们的文本到图像模型生成高分辨率图像的限制部分来说明:
[…] 文本到图像模型的数据需求导致研究人员严重依赖大规模、大部分未经筛选的网络抓取数据集。虽然这种方法在近年来促进了算法的快速进步,但这类数据集往往反映了社会刻板印象、压迫性观点,以及对边缘身份群体的贬低或其他有害的关联。尽管我们的部分训练数据经过了噪音和不良内容的过滤,比如色情图像和有毒语言,我们还使用了已知包含大量不当内容的 LAION-400M 数据集,包括色情图像、种族歧视性言论和有害的社会刻板印象。Imagen 依赖于在未经筛选的网络规模数据上训练的文本编码器,因此继承了大型语言模型的社会偏见和局限性。因此,Imagen 存在编码有害刻板印象和表现的风险,这促使我们决定在没有进一步保障措施的情况下不向公众发布 Imagen。[…] Imagen 可能会遇到数据分布模式的丢失风险,这可能进一步加剧数据偏见的社会后果。Imagen 在生成描绘人物的图像时表现出严重的局限性。我们的人类评估发现,Imagen 在不描绘人物的图像上获得了显著更高的偏好率,表明图像保真度下降。初步评估还表明,Imagen 编码了一些社会偏见和刻板印象,包括对生成肤色较浅人物图像的整体偏好以及对描绘不同职业的图像与西方性别刻板印象一致的倾向。最后,即使我们将生成重点放在远离人物的图像上,我们的初步分析表明,Imagen 在生成活动、事件和物体图像时编码了一系列社会和文化偏见。我们的目标是在未来的工作中解决这些开放挑战和局限性。
如何解决?
过去几年中,对有害、偏见、不公平、侵入性和被武器化的人工智能的认识已经提高,努力正在进行以解决这些问题。以下是一些相关努力的例子。
解决训练数据中的代表性不足
一个反复出现的主题是训练 AI 模型所需的数据质量。许多偏见是由于非主导群体、其文化价值观或语言在大型数据集中的代表不足而出现的。为了使 AI 造福于所有人,一个解决方案是确保数据由本国人标记。例如,智慧之声 AI 项目(现已结束)在 2021 年举办了一个数据标记研讨会,让美洲原住民重新标记与他们文化相关的图像。许多这些图像被机器学习分类模型错误标记。他们还创建了一个关于本土烹饪技术的知识图谱,以及一个用于查询知识图谱的聊天机器人。通过这样的努力,AI 可以帮助保护即将灭绝的文化、历史和语言。
处理词向量中的偏见
自然语言处理中的第一步是将语言的符号(如单词)转换为携带单词语义的数字向量。在第七章中,我们了解到语言模型使用单词在文档中出现的上下文构建这些单词向量。因此,嵌入在词向量中的含义在很大程度上取决于用于训练模型的语料库类型。语料库是我们生活文化的产物。许多自由和公民权利是相对较新的,性别角色和性别身份不再被预先确定。许多用于训练语言模型的语料库基于互联网新闻文章、维基百科页面等,仍然存在偏见、歧视性和包含有害刻板印象或内容。我们希望确保进入我们 AI 模型的词向量不会强化歧视,也不会对妇女和少数族裔造成不成比例的伤害。
举例来说,如果训练语料库(比如谷歌新闻文章)主要来自一个女性在护士或小学教师中过度代表,而男性在医生或软件工程师中过度代表的社会,那么词向量将继承这种性别偏见。例如,代表男人和软件工程师的向量之间的距离会比女人和软件工程师之间的距离更小。我们需要识别并补偿词向量中的这种偏见。
一个简单而不错的解决方案。鉴于我们处理的是数字向量,我们可以从这些向量中减去性别偏见和其他偏见。因此,代表软件工程师的向量将通过减去代表男人和男性的向量进行调整,甚至加上代表女人和女性的向量,如果我们选择在另一个方向上偏见。请记住,当我们将单词向量相互相加或相互相减时,所得到的新向量仍然具有意义,因为向量中的每个条目代表某种意义维度中的某种强度。也就是说,如果我们从国王的向量中减去男性的向量,我们将得到一个接近女王的向量。
解决隐私问题
隐私问题是关于大数据和人工智能的关注焦点。机器学习模型需要数据进行训练,而这些数据包含真实人员的个人和敏感信息。此外,许多对私人数据的计算发生在云上,这引发了更多的安全和隐私问题。
如果匿名化数据不可行,或者如果它降低了模型的性能(例如,年龄、体重、种族和性别信息对医疗目的很重要),那么加密就是我们的下一个选择。为此,我们需要能够直接在加密数据上执行计算的模型。然而,传统的加密方案不允许对加密数据进行任何计算。解决方案是允许这样做的新加密方案。安全设备可以加密数据,将这些加密数据发送到在云中运行的机器学习模型,预测结果而无需解密,将这些结果发送回安全设备,最终在本地解密,保护所有私人数据,同时利用云的优势。
同态加密正是这样做的。由克里斯汀·劳特(MetaAI)撰写的SIAM 新闻文章,她的研究涉及人工智能和密码学的交叉点,解释了同态加密,并列出了以下不错的应用:
-
一个云服务,以加密形式处理所有锻炼、健身和位置数据。该应用程序在本地解密分析结果后,在手机上显示摘要统计信息。
-
一个加密的天气预测服务,接收加密的邮政编码并返回有关所询问位置天气的加密信息,然后解密并在手机上显示。云服务永远不会了解用户的位置或返回的天气数据的具体信息。
-
一个私人医疗诊断应用程序:患者将胸部 X 光图像的加密版本上传到云服务。医疗状况通过在云中对加密图像运行图像识别算法来诊断;诊断以加密形式返回给医生或患者。
在这里添加有关同态加密数学的更多内容
了解在云和连接设备时代确保数据安全和隐私的努力,增加了公众对系统的信任和愿意自愿提供数据以增强这些技术的意愿。也就是说,任何与真实数据打交道的人都知道,能够看到我们正在处理的数据会让我们学到很多。我不确定在加密数据上进行故障排除会有什么结果。
解决公平性
人类在直觉层面上能够识别不公平。我们如何确保 AI 模型运行公平?一种方法是监控模型对哪些利益相关者造成了最大的伤害(比如年长的求职者,或者刑事司法系统中有资格获得假释的少数族裔),然后努力寻找解决方法,比如去偏见化训练数据,重新定义决策边界和阈值,包括人类在其中,或者重新分配资源用于提升弱势群体的项目。
公平的 AI 不仅仅涉及决策算法。公平还包括谁从算法中受益,例如谁得知有工作机会、疫苗可用性或教育机会。文章Adversarial Graph Embeddings for Fair Influence Maximization over Social Networks (2020)将这视为社交媒体图中的公平影响最大化问题。对于影响最大化图模型,通常会在选择具有最大影响力的节点和那些不一定与图中大型中心紧密连接的少数群体之间进行权衡。因此,最终受影响的节点集通常在种族、性别、原籍国等方面分布不公平。对抗网络通常用于训练具有竞争目标的模型。作者利用这一点,引入对抗图嵌入,其中有两个网络一起训练:用于图嵌入的自动编码器和用于区分敏感属性的鉴别器。这导致嵌入在敏感属性上分布相似。然后他们对结果图嵌入进行聚类,以决定一个良好的初始种子集。
将道德注入 AI
AI 代理必须知道对错之分,并且最好能够灵活处理道德的灰色地带。我们需要一个模型来模拟人类的道德判断,包括所有情境变化和复杂性。问 Delphi正试图做到这一点。当我们问 Delphi 这个仍处于原型阶段的问题时,比如:抢银行可以吗?不和丈夫说话可以吗?我们的问题和 Delphi 的回答都被记录下来,以及我们是否同意 Delphi 的回答,以及我们对改进 Delphi 回答的建议。随着越来越多的人与 Delphi 互动,训练数据得到增强,使 Delphi 能够学习更复杂的情况并做出更好的预测(道德判断)。以下摘录和免责声明来自 Delphi 的网站。它们对该模型的最新状态很有见地:
Delphi 正在从在 MTurk 上经过精心筛选的人们那里学习道德判断。问题中使用的情况仅从 Reddit 中获取,因为它是一个伦理问题严重的情况的好来源。Delphi 1.0.4 在涉及种族的陈述上表现出 97.9%的准确性,在涉及性别的陈述上表现出 99.3%的准确性。在首次推出后,我们增强了 Delphi 1.0.0 对涉及种族主义和性别歧视的陈述的防范措施,这些陈述的准确性曾分别为 91.2%和 97.3%。
条款与条件(v1.0.4)
Delphi 是一个研究原型,旨在探讨模拟人们在各种日常情况下的道德判断的潜力和更重要的是局限性。Delphi 的目标是帮助 AI 系统更具道德意识和公平意识。通过朝着这个方向迈出一步,我们希望激励我们的研究社区直面这一领域的研究挑战,构建道德、可靠和包容的 AI 系统。
Delphi 的局限性是什么?大型预训练语言模型,如 GPT-3,主要是在未经过滤的互联网数据上训练的,因此极易产生有害、不道德和有害的内容,尤其是针对少数群体。Delphi 的回应是自美国众包工作者调查中自动推断出来的,这有助于减少这个问题,但可能会引入自身的偏见。因此,Delphi 的一些回应可能包含不当或冒犯性的结果。在分享结果之前,请谨慎考虑。
AI 的民主化和对非专家的可访问性
要最大化 AI 技术的好处,它们必须民主化,易于访问大众,而不是仅限于专家。为了实现这一目标,人们要信任这些系统,这些系统依赖的模型和数据系统必须易于理解、易于使用,并透明地展示其内部运作、能力和局限性。
安娜·法里哈,博士(微软)是一位致力于实现这一目标的研究人员。她致力于扩展数据系统的能力,提供面向用户的功能,帮助提高各种用户的生产力和敏捷性,从最终用户到数据科学家和开发人员。
优先考虑高质量数据
本章的例子证明了优先考虑、民主化和保护高质量数据的重要性,以获得对人类公平和有益的人工智能。高质量数据清晰、准确且公正。它存储在易于查询的结构中。需要向最终用户解释数据结构之间的差异,以便他们可以决定哪种最适合他们。对于希望过渡到数据驱动决策、或加入人工智能浪潮、或与那些将这些技术融入基因的年轻公司保持竞争力的机构来说,制定一个处理数据的有组织和一致方式的计划是未来成功至关重要的一步。
在我们与城市消防局和公共交通部门合作的过程中,我们发现了许多改进数据质量的方法。在建立数据结构和收集数据的早期阶段实施这些方法将节省大量时间、金钱和资源。例如,在公交路线项目中,像运营中的公交车和每月司机数量这样的数据没有记录,公交车站的信息也没有记录,比如哪些标记了,哪些没有标记。即使数据被存储,也无法检索:我们大学的停车服务告诉我们,要从停车楼获取历史数据,他们将不得不进行超过 5,000 次手动请求。我们获得的所有数据都需要进行清洗和转换为可用形式。有时,来自同一来源的数据是不一致的,如果在一开始就更加小心,就可以节省大量工作。
我们的数据发生了一件终生受益的事情:在项目进行到后期时,经过清理、连接和转换所有相关数据后,我们的模型产生了可转化为业务决策的结果,比如识别某些地区供需之间的差距,并突出最重要的贡献者,等等,我们发现我们得到的所有公交车站数据都被打乱了。这意味着城市中每个公交车站的乘客量和路线与数据表中的公交车站不对应,我们除了运行原始查询到数据库并追踪写入数据文件时出了什么问题之外,没有其他修复方法。如果我们没有发现这一点,我们将基于错误数据,垃圾数据进行所有分析!交通部门将根据错误结果采取行动。我们必须始终确保我们处理的数据与实际情况准确对应。我们必须绘制、映射、检查、反复检查。我们的工作伴随着责任,我们不能轻率对待。我们应该全面了解我们的数据和模型。我们应该准备好回答关于我们模型的所有问题,将其与其他模型进行比较,并确保在向利益相关者提供结果之前尽到应有的职责。
像我们一样,一个通用的 AI 代理会在正确的地方寻找正确的数据,然后将其转换为可用的形式。在那之前,我们必须重新聚焦我们的努力,收集和存储高质量的数据,并拥有更好的访问和查询方式。由于低质量的数据和不存在的数字基础设施,许多 AI 项目从未见天日,许多自动化投资从未见回报。我们应该退后一步,思考数据最终将如何被表示为我们模型的输入。这应该指导我们如何获取数据,以及如何存储以备将来使用。AI 领域一直遵循一种普遍适用的范式,先表示,后获取。
区分偏见和歧视
许多涉及 AI 伦理的讨论将偏见和歧视这两个术语互换使用,我想在完成本书之前确保我们强调两者之间的区别。我从来不是那种纠缠于术语定义的人,尤其是我把英语作为第三语言,因为我注意到重新定义术语通常被用作一种廉价的手段来转移对论点或辩论主要观点的注意力。我之所以想特别强调偏见和歧视之间的区别,是因为每种都需要不同的数学方法来识别。此外,一种是有意的,另一种则不是。我们和我们的机器都应该能够推理出哪个是哪个。
简而言之,我们只需观察数据就可以检测到偏见。除非我们从单纯的观察上升到更高层次的推理,使用干预和反事实语言,我们才能识别歧视,我们在第九章中已经讨论过:如果我在申请人的简历上更改性别,他们会得到这份工作吗?
偏见是特定决策与特定申请人性别之间的关联模式。当观察申请人和最终录用者的数据时,我们可以直接检测到这种模式。
另一方面,歧视中包含了有意性:当性别对入职资格无关紧要时,决策受到申请人性别的影响。申请人的性别影响了招聘决定。
上述定义在 Judea Pearl 的《为什么之书》(2020)中得到强调。他继续提到美国案例法中对歧视的定义,该定义也使用了反事实语言:在卡森诉伯利恒钢铁公司案(1996)中,第七巡回法院写道,“在任何就业歧视案中,中心问题是雇主是否会在员工种族(年龄、性别、宗教、国籍等)不同的情况下采取相同行动,而其他一切都相同。”
因此,为了区分偏见和有意的歧视,我们需要在条件概率上使用我们在第九章和第十章中介绍的 do-演算法,您可以从 Judea Pearl 及其数学社区的优秀资源中了解更多。
炒作
AI 领域在其历史上一直被指责被夸大。如今,任何解决问题或构建系统的计算方法,无论是传统的还是更近期的,都被重新定义为 AI。传统统计是 AI,运筹学是 AI,数据探索和分析是 AI,量子计算是 AI,医学成像是 AI,等等。许多初创公司依赖夸大的指标、拉伸的事实,以及不问太多问题就投资的投资者,以免错过下一个大事件(例如破产的硅谷血液检测公司 Theranos)。由于我们正处于 AI 成为热词和家喻户晓的时代,很容易被带走,认为任何基于 AI 的技术都会奏效。
量子计算是另一项仍处于萌芽阶段、被炒作并与人工智能混淆的技术。它离商业化还有很远,但已经被宣传为商业化。需要进行大量研究,如果成功,这项技术具有广泛的有用应用潜力。最著名的应用是彼得·肖尔(Peter Shor)在 1994 年理论上证明了量子计算机可以以指数速度比所有经典方案更快地解决大数的质因数问题。Rivest–Shamir–Adleman(RSA)加密是现代计算机用来加密和解密消息的算法,而质因数分解是破解其代码的核心。
专门的人工智能相比量子计算已经发展得很好,而本书的目标之一是区分炒作和非炒作。无论是炒作还是非炒作,进入这个领域,享受并朝着良好的目标和释放巨大潜力努力。
总结思考
许多部门和行业都在向人工智能和数据科学靠拢。他们希望利用计算能力的实质性进步和高度表达模型的进步,将他们的数据转化为有意义的见解和决策。他们也意识到在行业层面可能会发生重大变革,并希望成为其中的一部分。
如果你想进入这个美丽而令人兴奋的领域,你可以选择进入应用方面:选择一个你感兴趣并且热情的行业中的应用。开始制定你想要回答的问题,找到数据,然后开始应用你所学到的知识。另一条路是进入研究方面,我们在那里研究模型本身,如何改进它们,扩展它们,分析它们并证明关于它们行为的定理,或者提出全新的模型。同样,只选择你真正感兴趣的研究项目。还有一条路是进入编码方面,构建软件包、库和更好的实现方式。这样做对我们所有人都是一个帮助。我无法想象如果 keras 和 scikit learn(用于机器学习和神经网络的 Python 库)不存在,我们中的许多人会怎么办。
目前,全球只有 22,000 名拥有博士学位的人工智能研究人员。其中百分之四十在美国。为了满足需求,引入新的想法到这个领域,我们需要更多的研究人员,无论是国内还是国际上。我希望这本书能够帮助你快速进入这个迷人的领域,也希望你有足够的基础能够自己深入研究你感兴趣的任何主题。
对我来说,作为一直欣赏数学及其惊人能力来模拟我们宇宙的人,最令人兴奋的事情之一是,人工智能激发了人们对数学的兴趣。我希望这反过来促使数学家重新思考如何呈现和教授数学。与此同时,让我们都倡导高质量和准确标记的数据、人工智能政策,并对我们的系统考虑和不考虑的内容保持诚实。同时,我们必须非常小心,不要将我们的人类经验简化为一系列数据和指标,有些可测量,有些留给我们容易出错的模型来预测和做出决策。正如这本书一次又一次地展示的那样:经历、点击习惯、邮政编码、健康记录、社交媒体评论、图片、标签、电子邮件往来、居住历史、种族、民族、国籍、宗教、婚姻状况、年龄、我们的朋友、我们朋友的习惯,等等,所有都变成了高维向量中的简单条目,被馈送到机器学习模型中进行预测。我们要确保我们不会意外地将自己转变为行走和说话的高维数据点。
我最后的想法,暂时来说:人工智能已经将许多数学方面巧妙地联系在一起。也许这不是巧合。也许数学是最适合智能的语言,而智能最舒适地通过数学表达自己。为了人工复制智能,我们需要一个能够毫不费力地通过其首选语言代表世界的代理。
关于作者
哈拉·纳尔逊 是詹姆斯·麦迪逊大学的数学副教授。她在纽约大学库兰数学科学研究所获得数学博士学位。在麦迪逊大学工作之前,她曾在密歇根大学安娜堡分校担任博士后助理教授。
她的研究领域涉及材料科学、统计力学、逆问题以及机器学习和人工智能的数学。她最喜欢的数学科目是优化、偏微分方程、数值线性代数和概率论。她喜欢将复杂的想法转化为简单而实用的术语。对她来说,大多数数学概念都是轻松且易于理解的,除非介绍这些概念的人要么并不太了解它们,要么试图炫耀。
其他事实:哈拉·纳尔逊在黎巴嫩长大,那时正值残酷的内战时期。她在一次导弹爆炸中很小的时候失去了头发。这一事件以及许多随后发生的事件塑造了她对人类行为、智能的本质和人工智能的兴趣。她的父亲在家里和用法语教她数学,直到她高中毕业。她父亲对数学的最喜欢的一句话是:“这是一门干净的科学”。
后记
《人工智能的基本数学》 封面上的动物是一只系着挽具的灌木羚(Tragelaphus scriptus)。
O’Reilly 封面上的许多动物都濒临灭绝;它们都对世界至关重要。
封面插图由 Karen Montgomery 制作,基于肖氏动物学中的一幅古老线刻。封面字体为 Gilroy Semibold 和 Guardian Sans。正文字体为 Adobe Minion Pro;标题字体为 Adobe Myriad Condensed;代码字体为 Dalton Maag 的 Ubuntu Mono。