导语
笔者毕业前一直做联邦学习方向,毕业后回顾联邦方向,突然感觉到了很多问题。原本做论文的时候只需要从技术的角度考虑某一个研究方向。毕业后想的事情越来越多,回顾联邦突然发现:很多时候卡住技术的原因不是技术本身,而永远是人文的因素。
那么,为什么我突然认为联邦学习就是个伪需求呢,主要在于以下四点联邦的痛点。
1. 数据所有权不平衡:
实际场景中,数据拥有量的不平等导致了联邦学习中参与者利益的严重失衡。大公司已经拥有了庞大的数据集,这些数据是他们的核心资产,关系着公司的核心竞争力和市场地位。而对于数据匮乏的小公司或初创公司,他们迫切需要数据来训练自己的模型,提高产品或服务的竞争力。在这种情况下,大公司没有动力与小公司共享他们的数据,因为风险(数据泄露、隐私问题等)远大于可能的收益(通过联合学习改进的模型)。
举个例子:现实中的很多情况都是A方在某个领域积累有大量的数据,而B方可能是一个初创团队没有什么数据。然而,拥有数据越多的一方在联邦学习中的收益越少,而没什么数据的公司反而愿意希望其他方共享数据做联邦。结果A方根本没有任何动力和其他方进行联邦。
2. 数据定价难题:
针对于第一个问题,可能有人会说,那我们就放弃数据体量相差太大的场景,只做中小公司之间的联邦学习不就好了?即保证联邦各方间相对平等。
但这里就出现了联邦学习的另一个痛点:数据没有定价体系。
数据定价是一个复杂的问题,因为数据的价值可以根据其类型、质量、稀缺性、以及如何被用于创建价值等因素而变化。没有统一的标准或公式来确定数据的价格,这使得在联邦学习环境中的数据交换变得复杂和困难。此外,如果数据的定价过低,数据丰富的参与者可能会觉得不值得分享;如果定价过高,数据贫乏的参与者可能无法承受成本。而如果不做定价,那不就成了原始社会的以物易物了?以物易物会导致商品的流通效率大大降低。如何探索在联邦学习中的去中心化的数据定价体系是该技术大规模落地之前必不可少的一环。而目前的技术并不能支持这种新体系。
3. 模型共享中的隐私风险:
现有的联邦学习技术主要着眼于用户隐私的保护,事实上整个隐私计算领域都是这样的,当只进行前沿论文研究的时候这确实没什么问题,毕竟保护用户隐私属于是一种zz正确了,但在进行落地的时候,光考虑保护用户隐私确是不充分的,公司的隐私也需要保护。
首先回顾一下联邦学习的基本过程:
- 初始化:中央服务器(通常由研究机构或企业拥有)首先初始化一个全局模型。
- 模型分发:此全局模型被发送到所有参与联邦学习的设备或节点上(这些设备或节点拥有自己的本地数据)。
- 本地训练:每个设备使用其本地数据训练这个模型,并生成一个本地更新的模型。
- 上传模型更新:每个设备将模型的更新(通常是权重更新或梯度信息)发送回中央服务器。
- 聚合更新:中央服务器收集所有设备发送的更新信息,并聚合这些更新信息来改进全局模型。
- 迭代过程:更新后的全局模型再次被分发到所有设备,并重复步骤3-5,直到模型达到满意的准确性或其他终止条件。
可以看到,在传统的联邦学习场景中,公司必须与用户共享其模型的某些信息,毕竟联邦架构中需要模型在用户本地进行训练。这就产生了一个问题:公司如何保护其模型的知识产权?一个训练好的神经网络模型可能价值数百万,甚至数千万美元,而联邦学习中模型是需要在用户本地流通的,公司可能不愿意冒着泄露这些信息的风险。即使已有技术可以在一定程度上隐藏模型的参数(如同态加密、差分隐私等),但这些技术本身也有局限性,并可能影响模型的性能,或者大大增加模型训练的成本。
4. 学术与工业界的割裂:
产学研脱离属于是一个老生常谈的话题了。联邦学习的研究往往更侧重于理论和在实现模型的隐私保护前提下,最大化模型的准确性,而对于实际的商业应用基本不会关注。实际业务场景中,公司更关心的是如何在模型的准确性尽可能不变下,在法律允许的最低限度上保护数据和模型隐私。这种学术研究与实际业务需求之间的脱节,限制了联邦学习在工业界的广泛接受和应用。
总结
联邦学习所属的隐私保护领域确实是有需求的,但是联邦学习本身目前还是非常不靠谱的,属于是典型的“上意好,下执错”,如果上述几点痛点得不到解决,估计联邦学习距离大规模落地仍有很长的距离。