AI公平性、偏见与NLP技术挑战深度探讨

2 阅读8分钟

与某机构合作的AI公平性项目新动向

某机构AI自然理解副总裁Prem Natarajan讨论了即将开启的与某联邦科学机构合作的AI公平性研究新周期、他在某AI合作组织董事会的工作,以及如何解决自然语言处理中的偏见问题。

问:与某联邦科学机构合作的“AI公平性”项目2020年度申请周期已启动,完整提案需在7月13日前提交。您对下一轮提案有何期待?

我们与该机构合作启动“AI公平性”项目,旨在推动这一AI重要领域的学术研究。我们与学术界在AI公平性和透明度问题上合作的主要目标,是汇聚多元且各异的视角来共同应对挑战。

该机构在第一轮选中的团队正在研究各种主题——从开发和认证公平AI的原则性框架,到领域聚焦的应用,例如为寄养服务开发公平的推荐系统。因此,我希望第二轮能在第一轮成功的基础上,引入关于公平性定义和认知的更多元视角。没有这种多样性,整个公平AI研究领域将变成一项弄巧成拙的练习。

对第二轮以及未来所有轮次,另一个期望是能推动创建一系列开源成果,如数据集、度量标准、工具和测试方法。所有AI利益相关者都可以用这些成果来促进公平AI的应用。这些易于获取的成果将使社区更容易相互学习,促进研究成果的复现,并最终更快地推动技术发展。换言之,希望该项目研究的开放获取能形成一种“水涨船高”的效应。同样,公平性方法论的探讨,也自然需要在相关学术和科学社区中进行广泛而包容的讨论。

下一轮提案提交的截止日期是7月13日,希望这一轮的响应比第一轮更热烈。获奖者由该机构选出,相信其评审员们正期待着一个充满有趣研究的夏天。

在某AI合作组织的工作与见解

问:您是该组织董事会的代表。这个独特的组织设有安全关键AI、公平透明可信AI、AI与劳动力经济、人机协作、AI的社会影响、AI社会福祉等主题支柱,议程宏大。作为新成员,您对其工作最感兴趣的是什么?

该组织最吸引人的地方在于它是一个独特的跨领域论坛,可以聆听和学习来自行业、学术界、非营利组织和社会正义团体的多元视角。目前其成员包括约59个非营利组织、24所学术机构和18家行业组织。虽然几个月前才加入董事会,但已参加了几次会议,并与成员及工作人员进行了讨论。尽管每个成员对AI都有独特视角,但看到大家共享相同的价值观和许多相同的关切,是非常有趣且令人鼓舞的。公平问题以及随之而来的对公平性考量的关注,自然成为首要议题。

从技术角度看,该组织正在进行的研究计划的数量和质量令人兴奋,其中许多对未来AI领域发展至关重要。举几个例子:

一是公平性、问责制和透明度领域。有几个相关项目正在进行,其中一项研究是该组织工作人员对二十个不同组织的实践者进行了访谈,并对当前如何使用可解释AI进行了深入的案例研究。这类研究对AI实践者非常重要,因为它为他们评估自身工作、识别未来可做贡献的有用领域提供了参考依据。

另一个例子是“关于机器学习”项目,专注于开发和分享最佳实践,并增进公众对AI的理解。几年前,有研究人员曾提议开发AI模型评分卡,类似于今天购买的多数食品包装背面的营养信息。评分卡会描述用于训练模型的数据属性、测试方式等。其动机是让其他开发者或模型构建者了解模型的优势和局限性,从而更好地评估和解决模型在其目标用例中的潜在弱点。而“关于机器学习”项目远不止于评分卡,它关注文档记录、数据和代码工件的来源、以及模型开发过程中的其他关键属性。最终,只有像该组织这样的跨领域组织才能成功推动此类倡议,将不同组织和领域的人们聚集在一起。

最后,该组织还扮演着我认为独一无二的教育角色,作为AI技术专家与社会其他利益相关者之间的桥梁,确保AI技术专家能恰当地考虑社会其他利益相关者的观点和关切。例如,该组织与其合作者“第一手稿”合作,帮助数字平台的技术专家和记者应对日益严重的操纵媒体问题。该组织也帮助这些利益相关者更好地理解AI技术的工作原理、优势及其局限性。

自然语言处理模型中的偏见挑战与对策

问:您负责某AI助手的自然理解团队。自然语言处理模型因捕捉到关于性别和种族的常见社会偏见而受到批评。关于词嵌入和分类器中的偏见,以及许多对策方案,已有大量研究涌现。您能否描述一下NLP模型中偏见的挑战,并介绍您认为有效或可能有效的对策?

词嵌入是一个词的实数向量表示;其核心思想是,语义相似的词映射到的向量在空间中也彼此“接近”。词嵌入已成为现代NLP的核心特征。虽然可以用多种不同技术计算嵌入,但深度学习技术在数值表示词语义和概念等方面已被证明非常有效。如今,基于深度学习的嵌入被用于各种处理任务,从命名实体识别到问答和自然语言生成。因此,这些嵌入编码的语义极大地影响了如何解释文本、解释的准确性以及根据这些解释采取的行动。

任何基于数据的系统都可能表现出多数偏见。

随着词嵌入的普及,研究人员自然开始研究其脆弱性和缺点。其中之一是嵌入从上下文中推导和编码意义,这意味着一个词的意义很大程度上受训练数据中观察到该词的不同上下文控制。虽然这似乎是推断意义的合理基础,但它导致了不良后果。一位学者使用了这样一个例子:取“医生”的向量,减去“男人”的向量;当加上“女人”的向量时,原则上应该再次得到“医生”的向量,或“女医生”。但结果向量却接近“护士”。这个例子表明,人类生成文本中的潜在偏见被编码到了嵌入中。受这些偏见影响的系统之一是自然语言生成。许多研究表明,此类偏见可能导致生成带有同样偏见和成见的文本,有时甚至被放大。如果不加以缓解,此类系统可能会强化人类的偏见和刻板印象。

偏见也可能以其他方式表现出来,因为任何基于数据的系统都可能表现出多数偏见。例如,世界不同地区的不同群体可能使用不同的方言说同一种语言,但最频繁的方言可能会获得最佳性能,仅因为它占训练数据的大部分。但不希望方言或口音决定系统对个人的效果。希望系统能对每个人都同样有效,无论地域、方言、性别或任何其他无关因素如何。

在方法论上,通过使用原则性方法来描述偏见的维度及相关影响,并开发对这些偏见因素具有鲁棒性的技术,来应对偏见的影响。例如,语音识别系统理应忽略对识别所说词语无用的信号部分。声音是男是女并不重要,重要的是实际的词语。同样,对于自然语言理解,希望能够理解不同人群的查询,无论其语言风格或句法变化如何。某机构及其他地方的科学家正在探索多种方法,如去偏技术、对抗不变性、主动学习和选择性采样。个人认为,对抗性方法因其可扩展性,在测试和生成偏见或 nuisance 不变表示方面最有吸引力,但在未来几年内,将发现哪种方法最适合不同的问题。FINISHED