图1. 这篇博文讨论了黑盒模型的解释在帮助终端用户做决定方面的有效性。我们观察到,解释事实上对具体的应用没有帮助,比如欺诈检测和同行评审的论文匹配。我们的工作进一步激发了开发和评估支持人类与ML交互的工具的新方向。
在许多现实世界的应用中,模型解释被吹捧为促进人类与ML互动的关键信息,在这些应用中,终端用户在ML预测的基础上做出决定。例如,解释被认为可以帮助模型开发者识别模型何时依赖虚假的人工制品,并帮助领域专家确定是否遵循模型的预测。然而,虽然已经开发了许多可解释的人工智能(XAI)方法,但XAI还没有兑现这一承诺。XAI方法通常是为不同的但狭窄的技术目标而优化的,与他们声称的用例脱节。为了将方法与具体的用例联系起来,我们在《ACM通讯》的论文[1]中提出,研究人员应严格评估所提出的方法在现实世界的应用中如何能够帮助真正的用户。
为了弥补这一差距,我们小组已经完成了两个合作项目,与电子商务欺诈检测和论文匹配领域的专家合作,进行同行评审。通过这些努力,我们收集到了以下两个见解:
- 现有的XAI方法对决策没有用。向人类展示流行的、通用的XAI方法并不能提高他们在真实世界的用例中的表现,而这些用例正是推动这些方法发展的动力。我们的负面发现与同时代的作品一致。
- 严格的、真实世界的评估是很重要的,但是很难。这些发现是通过耗时的用户研究得到的。
我们相信,这些见解中的每一个都激励着相应的研究方向,以更好地支持人与人之间的互动向前发展。首先,除了试图解释ML模型本身的方法之外,我们应该考虑更广泛的方法,向人类决策者呈现相关的特定任务信息;我们将这些方法称为以人为本的ML(HCML)方法[10]。其次,我们需要创建新的工作流程来评估拟议的HCML方法,这些工作流程既要成本低,又要对现实世界的性能有信息。
在这篇文章中,我们首先概述了我们评估XAI方法的工作流程。 然后,我们描述了我们如何在两个领域实例化这个工作流程:欺诈检测和同行评审论文匹配。最后,我们描述了上述两项工作的启示;我们希望这些启示能够促使社区重新思考如何开发和评估HCML方法。
如何严格地评估解释方法?
在我们的CACM论文[1]中,我们引入了一个以使用案例为基础的工作流程来评估实践中的解释方法--这意味着显示它们是 "有用的",也就是说,它们实际上可以改善它们所激发的现实世界应用中的人机交互。这个工作流程与之前工作中的XAI方法的评估工作流程形成对比,后者依赖于研究者定义的代理指标,这些指标可能与任何下游任务相关,也可能与之无关。我们提出的三步工作流程是基于一般的科学方法:
第一步: *定义一个具体的用例。*要做到这一点,研究人员可能需要与领域专家密切合作,定义一个反映感兴趣的实际用例的任务。
第二步: 选择解释方法进行评估。 虽然所选的方法可能由流行的XAI方法组成,但适当的方法集在很大程度上是特定于应用的,还应该包括相关的非解释基线。
第3步: *对照基线评估解释方法。*虽然研究人员最终应该通过对真实世界用户的用户研究来评估所选方法,但研究人员可能希望首先进行更便宜、更嘈杂的评估,以缩小考虑中的方法集(图2)。
图2. 评估是我们提出的以使用案例为基础的工作流程的一个关键组成部分,包括四个阶段,从较便宜的、低信号的评估到较昂贵的、特定任务的用户研究。评估阶段改编自Doshi-Velez和Kim(2017年);我们在最近的Neurips 2022年的论文[2]中引入了一个额外的阶段,即以使用情况为基础的算法评估。
实践中的工作流程实例化
我们与来自两个领域(欺诈检测和同行评审论文匹配)的专家合作,将这个以使用案例为基础的工作流程实例化,并评估现有的XAI方法:
图3. 欺诈分析员在我们的实验中使用的用户界面实例(为说明起见,用样本数据填充)。(a) 基本界面组件,包括模型得分(显示在左上方),批准或拒绝交易的按钮,以及交易细节。(b) 界面的一个组成部分,展示了模型得分的解释。
领域1:欺诈检测[3]。 我们与Feedzai(一家金融创业公司)的研究人员合作,评估提供模型解释是否能提高欺诈分析师检测欺诈性电子商务交易的能力。鉴于我们可以获得真实世界的数据(即历史上的电子商务交易,我们对这些交易是否是欺诈性的答案有基本的了解)和真实的用户(即欺诈分析员),我们直接在这种情况下进行了用户研究。图3是显示给分析员的界面的一个例子。我们比较了分析师在显示不同解释时的平均表现和只提供模型预测的基线设置。我们最终发现,与基线设置相比,我们评估的流行的XAI方法(LIME、SHAP和Tree Interpreter)都没有使分析员的决策得到改善(图5,左)。与真实用户一起评估这些方法还带来了许多后勤方面的挑战,因为欺诈分析员需要从他们正常的日常工作中抽出时间来定期参与我们的研究。
图4. 同行评审论文匹配是一个文件匹配应用的例子。对于每篇提交的论文,匹配模型通过亲和力分数(实心箭头)预先筛选出一个候选审稿人名单。元审稿人,通常在时间限制下,然后在预选的审稿人中选择与所提交论文最匹配的人(带实线的方框)。我们研究提供额外的辅助信息,即在候选文件中突出潜在的相关信息,是否可以帮助元评审员做出更好的决定(虚线箭头和方框)。
**领域2:同行评审论文匹配[4]。**我们与同行评审专家Nihar Shah教授(CMU)合作,研究哪些信息可以帮助会议的元评审员更好地将提交的论文匹配给合适的评审员。吸取之前的经验,我们首先使用代理任务和用户进行了一项用户研究,我们与Shah教授合作设计了如图4所示。在这个代理任务中,我们发现提供流行的XAI方法的解释实际上使用户更有信心--大多数显示了XAI方法的亮点的参与者认为突出的信息是有帮助的--然而,他们做出的决定在统计学上更差 (图5右)!
图5. 我们在两个领域对流行的XAI方法进行了评估:电子商务欺诈 (左),我们用一个真实的用例和用户进行了用户研究;以及同行评审论文匹配 (右),我们用一个代理任务和用户进行了用户研究,这个任务是我们和一位领域专家一起设计的。尽管我们发现流行的XAI方法的解释并没有超过只提供模型预测的基线(而且往往导致统计上更差的性能),但我们对特定任务方法的潜力持乐观态度。特别是,我们在同行评议论文匹配任务中提出的方法比只提供模型分数的基线和现有的通用方法都要好。
我们如何才能更好地支持人类与ML的互动?
通过这些合作,我们确定了未来工作的两个重要方向,我们将更详细地描述这些方向,以及我们在每个方向上的初步努力。
我们需要为特定的使用案例开发方法。 我们的结果表明,来自流行的、通用的XAI方法的解释既会损害决策,又会使用户过于自信。这些发现也在多个同时代的作品中被观察到(例如,[7,8,9])。相反,研究人员需要考虑开发以人为本的ML(HCML)方法[10],为每个下游用例量身定做。HCML方法是指任何能够提供关于特定用例和背景信息的方法,这些信息可以为人类决策提供参考。
**图6.**在我们的同行评审匹配代理任务中,来自不同方法的高亮信息的例子。关键部分"(第二行)的亮点提供了 "基础事实",也就是说,它指出了与查询摘要(第一行)相关的信息,所有这些信息最好都能被后面的方法明显地强调出来。现有的方法如SHAP(第三行)和BERTSum(第四行)未能完全突出所有的关键部分。最关键的是,它们未能明显地突出 "河流水位上升 "的关键部分(关键部分中的黄色高亮),这是区别于其他候选文章的独特信息,会直接影响参与者的表现。另一方面,我们的特定任务方法(下行)明显地突出了所有的关键部分。
我们的贡献: 在同行评议匹配环境中,我们提出了一种与领域专家共同设计的HCML方法[4]。值得注意的是,我们的方法不是一个模型解释方法,因为它突出了输入数据中的信息,特别是在提交的论文和审稿人资料中相似的句子和短语。图6比较了用我们的方法突出的文本和用现有方法突出的文本。我们的方法比没有解释的基线和模型解释的条件都要好(图5,右)。基于这些积极的结果,我们计划将对我们提出的方法的评估转移到更真实的同行评审环境中。此外,我们进行了一项探索性的研究,以更好地了解人们如何与HCML方法提供的信息互动,作为提出更系统的方法来设计特定任务的HCML方法的第一步[5]。
我们需要更有效的评估管道。 虽然在真实世界的使用案例中进行的用户研究是评估HCML方法的理想方式,但这是一个耗时和耗资源的过程。我们强调需要更具成本效益的评估,可以用来缩小候选HCML方法的范围,并且仍然牵涉到下游的用例。一种选择是与领域专家合作,设计一个代理任务,就像我们在同行评审中所做的那样,但即使是这些研究也需要仔细考虑对现实世界用例的可推广性。
我们的贡献。 我们引入了一种基于算法的评价,称为模拟用户评价(SimEvals)[2]。研究人员可以训练SimEvals,而不是进行代理任务的研究,SimEvals是作为人类代理的ML模型。SimEvals更忠实地反映了真实世界评价的各个方面,因为他们的训练和评价数据是在真实世界研究中考虑的相同数据和任务上实例化的。为了训练SimEvals,研究人员首先需要生成一个观察-标签对的数据集。观察对应于在用户研究中呈现的信息(关键是包括HCML方法),而输出是感兴趣的用例的地面真实标签。例如,在欺诈检测环境中,观察结果包括图3(a)所示的电子商务交易和ML模型得分,以及图3(b)所示的解释。基础事实标签是交易是否是欺诈性的。SimEvals被训练来预测给定观察的标签,其测试集的准确度可以被解释为衡量观察中包含的信息是否对用例有预测作用。
我们不仅在各种代理任务上评估了SimEvals,还通过与Feedzai合作,在实践中测试了SimEvals,我们发现结果印证了用户研究中的负面结论[6]。尽管SimEvals不应该取代用户研究,因为SimEvals不是为了模仿人类决策而设计的,但这些结果表明,SimEvals可以初步用于识别更有前途的解释(图6)。
图6. 模拟用户研究(SimEvals)如何帮助研究者在特定的使用情况下选择评估哪些解释方法的概述。(左图)在进行用户研究时,由于资源限制,研究人员往往只评估少数解释方法,并选择流行的方法作为评估的候选解释,而很少说明为什么每个选择可能对下游用例有帮助。(右图)我们建议使用SimEvals,它是以用例为基础的算法评估,在运行用户研究之前有效地筛选解释方法。在这个例子中,研究人员对四种候选解释方法中的每一种都进行了SimEval,然后使用SimEvals的结果来选择两种有希望的解释方法,其中算法代理对他们的人类主体研究具有很高的准确性。
结论
总之,我们最近的努力激励了社区应该重新思考如何支持人与人之间的互动:(1)我们需要用针对特定用例的HCML方法来取代通用的XAI技术,以及(2)创建中间评估程序,以帮助缩小HCML方法的范围,在更昂贵的环境中进行评估。
关于这篇博文中提到的各种论文的更多信息,请看下面的链接:
[1] Chen, V., Li, J., Kim, J. S., Plumb, G., & Talwalkar, A. 可解释性机器学习。Communications of the ACM, 2022.(链接)
**[2]**Chen, V., Johnson, N., Topin, N., Plumb, G., & Talwalkar, A. Use-case-grounded simulations for explanation evaluation.NeurIPS, 2022.(链接)
[3] Amarasinghe, K., Rodolfa, K. T., Jesus, S., Chen, V., Balayan, V., Saleiro, P., Bizzaro, P., Talwalkar, A. & Ghani, R. (2022).On the Importance of Application-Grounded Experimental Design for Evaluating Explainable ML Methods. arXiv.(链接)
[4] Kim, J. S., Chen, V., Pruthi, D., Shah, N., Talwalkar, A. Assisting Human Decisions in Document Matching。arXiv.(链接)
[5] Chen, V., Liao, Q. V., Vaughan, J. W., & Bansal, G. (2023).Understanding the Role of Human Intuition on Reliance in Human-AI Decision-Making with Explanations. arXiv.(链接)
[6] Martin, A., Chen, V., Jesus, S., Saleiro, P. A Case Study on Designing Evaluations of ML Explanations with Simulated User Studies. ArXiv.(链接)
**[7]**Bansal, G., Wu, T., Zhou, J., Fok, R., Nushi, B., Kamar, E., Ribeiro, M. T. & Weld, D. Does the whole exceed its parts? The effect of ai explanations on complementary team performance.CHI, 2021.(链接)
**[8]**Adebayo, J., Muelly, M., Abelson, H., & Kim, B. Post hoc explanations may be ineffective for detecting unknown spurious correlation.ICLR, 2022.(链接)
**[9]**Zhang, Y., Liao, Q. V., & Bellamy, R. K. Effect of confidence and explanation on accuracy and trust calibration in AI-assisted decision making.FAccT, 2020.(链接)
**[10]**Chancellor, S. (2023).Toward Practices for Human-Centered Machine Learning.Communications of the ACM, 66(3), 78-85.(链接)
鸣谢
我们要感谢Kasun Amarasinghe、Jeremy Cohen、Nari Johnson、Joon Sik Kim、Q. Vera Liao和Junhong Shen对该博文早期版本的有益反馈和建议。也感谢Emma Kallina在设计主图时提供的帮助!