可解释AI对抗攻防技术全面解析本文系统综述了可解释人工智能(XAI)领域的对抗攻击与防御技术，涵盖模型解释方法的脆弱性分

可解释人工智能中的对抗攻击与防御：综述

可解释人工智能（XAI）方法被视作调试和信任统计与深度学习模型、解释其预测的重要工具。然而，对抗机器学习（AdvML）的最新进展揭示了最先进解释方法的局限性和脆弱性，使其安全性和可信度受到质疑。当应用于高风险决策和知识发现时，操纵、欺骗或漂白模型推理证据的可能性将产生严重后果。

本综述全面概述了针对机器学习模型解释及公平性指标的对抗攻击研究，建立了统一的符号体系和分类方法，为来自AdvML和XAI交叉研究领域的研究人员和实践者提供共同基础。探讨了如何防御攻击并设计鲁棒的解释方法，贡献了XAI现有安全漏洞清单，并勾勒出对抗性XAI（AdvXAI）的新兴研究方向。

未来工作应致力于改进解释方法和评估协议，以考虑已报告的安全问题。本研究已被《Information Fusion》期刊接收，涉及密码学与安全（cs.CR）、人工智能（cs.AI）、计算机视觉与模式识别（cs.CV）以及机器学习（cs.LG）等多个学科领域。

文献编号：arXiv:2306.06123v4 [cs.CR]
DOI：10.1016/j.inffus.2024.102303
最新修订日期：2025年7月28日