「这是我参与2022首次更文挑战的第2天,活动详情查看:2022首次更文挑战」。
1、联邦学习提出的背景
当前机器学习特别是深度学习在各个领域均取得了巨大的成功,然而这无一不是建立在大量数据基础之上的。在数字时代,数据对于企业的重要性越来越突出。数据以资产的形式直接与企业经济效益挂钩,数据的资产属性甚至催生了一种新的商品交易模式:大数据交易。
鉴于数据的重要性,使得各方之间共享数据的可能性越来越小。虽然有众多机构建设了大量开源数据集,但是要获取数量大且质量高的训练数据通常非常困难。与此同时,人们对于用户隐私和数据安全的关注度也在不断提高,且立法机构和监管机构出台了新的法律来规范数据的管理和使用。这些原因,使得大数据正面临着严重的数据割裂问题,并呈现出“数据孤岛”的现状,导致在进行人工智能模型训练时无法有效利用各方的数据,阻碍了算法模型的效果提升。
联邦机器学习(Federated Machine Learning,FML)正是在这种背景孕育而生,其核心思想是:每一个拥有数据源的机构利用自身的数据单独训练一个模型,之后各机构的模型彼此之间进行交互,最终通过模型聚合得到一个全局模型。为了确保用户隐私和数据安全,各机构间交换模型信息的过程将会被精心设计,使得没有机构能够猜测到其他任何机构的隐私数据内容。同时,在构建全局模型时,其效果与数据源被整合在一起进行集中式训练的效果几乎一致。其核心理念是:数据不动模型动,数据可用不可见。
2、联邦学习的定义
假设每一个参与方都有一个数据集,传统方法训练(集中式训练)的模型是,联邦学习训练的模型是,且关于和的性能量度(准确率、召回率等)分别是和,则有以下关于联邦学习性能损失的概念:
- 狭义的联邦学习性能损失:
- 广义的联邦学习性能损失:
其中, 是一个非负实数。不难发现,广义和狭义的区别就是 的取值范围不同,如下图所示:
一般情况下,传统方法和联邦学习的性能差异非常小,表现为狭义的联邦学习性能损失。但是,当数据分布极度不平衡时,则表现为广义的联邦学习性能损失。例如,当某一方由于硬件故障导致数据质量非常差时,若采用集中式训练则模型效果非常差,而采用联邦学习训练时,若本地检测出硬件故障则联邦学习系统将剔除该客户端,从而保证了模型训练的效果。
3、联邦学习分类
按照数据样本分类:
- 横向联邦学习
在两个数据集的用户特征重叠较多而用户群体(样本ID)重叠较少的情况下,我们把数据集按照横向(即用户维度)切分,并取出双方用户特征相同而用户不完全相同的那部分数据进行训练。
例如,有两家服务于不同地区的银行,它们的用户群体集合重叠部分较小,但在数据特征维度上的重叠部分较大。这两家银行就可以通过横向联邦学习共同建立一个机器学习模型。
- 纵向联邦学习
在两个数据集的用户重叠较多而用户特征重叠较少的情况下,我们把数据集按照纵向(即特征维度)切分,并取出双方用户相同而用户特征不完全相同的那部分数据进行训练。
例如,同一地区有一家银行和一家电子商务公司,它们在客户群体上有着非常大的交集,而电子商务公司只有用户的购买行为信息,而银行只有用户的资产数据,它们可以通过纵向联邦学习在各自的不同数据特征空间上协作而得到一个更好的机器学习模型。这样,电子商务公司可以更好预测用户对某一个物品的购买概率,而银行可以更好地评估用户的经济水平和债务偿还能力。
- 联邦迁移学习
在两个数据集的用户与用户特征重叠都较少的情况下,我们不对数据进行切分,而可以利用迁移学习来克服数据或标签不足的情况。
例如,一家公司有丰富的图片信息,另一家公司有文字等自然语言信息,则两家公司可以通过知识迁移来学习到另一方的特征数据,从而扩充自身的特征信息,提升模型的性能效果。
按照协调方式分类:
- 集中式拓扑
存在一个中心计算方(既可能是独立于各参与方的服务器,也可能是某一个特定的参与方),该中心计算方承担收集其他各方传递的模型参数信息并经过相应算法更新后返回各方的任务,它的优势在于易于设计与实现。
- 对等网络拓扑
不存在中心计算节点,各参与方在联邦学习框架中的地位平等。在集中式拓扑中,中心计算方存在泄露隐私或者遭受恶意攻击的可能,所以相比之下离散式拓扑更为安全。但这种拓扑设计的难度较大,必须平等对待各参与方且能够对所有参与方有效更新模型并提升性能。
四、联邦学习现状
- 横向联邦学习
当前线性模型(如线性回归、逻辑回归等)、GBDT提升树模型、递归神经网络、卷积神经网络、个性化推荐中的横向矩阵分解等都已经在横向联邦上实现。事实上,使用梯度下降等最优化算法迭代优化的机器学习模型基本都能使用横向联邦学习框架训练。
- 纵向联邦学习
当前的线性模型(如线性回归、逻辑回归等)、提升树模型SecureBoost、神经网络、个性化推荐中的纵向矩阵分解、纵向因子分解机等都已经在纵向联邦上实现。
- 联邦迁移学习
当前的研究还比较少,是今后联邦学习的重点研究方向。