Federated Region-Learning: An Edge Computing Based Framework for Urban Environment Sensing

联邦区域学习：基于边缘计算的城市环境感知框架

Abstract 摘要

监测点不足及其记录不完整导致的稀疏感知数据成为细粒度环境感知的主要挑战。在本文中，我们开发了一个新的推理框架，名为联邦区域学习（FRL），用于城市环境感知。所提出的框架继承了联邦学习的基本思想，并在训练样本分布过程中考虑了区域特征，以提高推理的准确性。此外，我们利用边缘计算架构来实现FRL，以提高计算效率。我们还将FRL应用于北京的PM2.5监测。评估表明，与普通分布式培训相比，我们的FRL提高了计算效率近3倍，比集中式培训模式提高了5％以上。

I. INTRODUCTION 介绍

与城市污染作斗争需要全面的长期环境数据收集和综合，主要依靠监测点。但是监测点稀疏，由不充分的站点和不完整的记录引起的稀疏感知数据成为细粒度环境感知的主要挑战。

在现有工作中，模型被训练为集中形式，即，所有数据被集中用于构建统一模型。这种集中培训模式带来了实质性问题：

计算效率

通常用深度学习模型进行推理，因此在全市范围内的计算量很大。集中型的训练模型计算效率低

模型表现

环境数据有环境多样性，不同区域的数据特征相差很大。因此一个统一的模型可能无法涵盖区域特征。

为了解决上述问题，设计了一个新的框架：联邦区域学习（FRL）。FRL继承了联邦学习的基本思想，让训练数据分布在移动设备上，融合本地数据进行共享模型的学习。FRL考虑了训练样本分布过程中的区域特征，以提高推理的准确性。首先提出一种区域化方法，将城市区域划分为一组区域。通过使用在相应区域中生成的样本来训练区域模型。通过平均所有区域模型的权重，生成全局模型。然后，将全局模型发送回区域模型以继续下一轮培训。在几次迭代之后，选择具有最高测试精度的区域模型作为相应区域的推理模型。作为边缘计算的载体，为每个区域部署微云。微云主要负责：a）从其所在地区的每个站点收集数据;b）从中央服务器下载全局模型，并通过本地数据训练区域模型;c）将区域模型上载到中央服务器。

本文的贡献在于以下几个方面：

框架。

设计了一个环境感知推理框架，它结合了边缘计算和分布式深度学习的思想。它提供了一个完整的解决方案，可以同时解决计算效率和模型性能问题。

模型。

提出了实施分布式训练模式的反馈区域学习的概念和模型。更重要的是，FRL结合了学习网络的区域特征和结构一般性，实现了比全球模型和单独的区域模型更好的性能。

应用。

将提出的模型和框架应用于PM2.5监测，这是公共卫生健康的重要应用。此外，我们还将FRL的双层结构扩展到多层结构，可用于更广泛的应用场景。

II：划分方式和联邦区域学习的规则 III：划分方式和联邦区域学习的实验结果 IV：框架的多层级结构

II. 框架

如图2所示，框架可分为两个阶段。

在第一阶段，根据距离和污染评估每个空气质量监测站点的关系，然后通过合适的站点之间的关联度算法将站点划分为区域。在评估步骤中，我们分析每个监测点PM2.5的变化趋势，作为站点间相关性的参考标准，并根据站点的坐标计算站点之间的距离; 在划分步骤中，我们使用Girvan-Newman（GN）算法在每个区域中建立最强的相关性。

在第二阶段，微云首先从中央服务器下载全局模型并在其自己的区域内收集数据，然后准备培训区域模型。培训过程如图2所示。每个微云使用区域数据来训练基于全局模型的区域模型。在测试并保存最佳模型后，微云将最佳模型上传到中央服务器以获得新的全局模型。最后，全局模型再次分发到每个微云以进行下一次迭代。我们的框架提高了模型训练过程的计算效率，并提供更准确的实时空气质量值。

区域化

检测站点分布不均，为了更好的

为了更好地提取数据的区域特征和更有效地管理数据，首先合理划分网站，以使的区域模型更好地运作。检测的地理位置和训练数据被视为划分的基础。聚类算法可分为两个阶段： 1）基于站点位置及其相关性的加权网络构建; 2）加权网络的划分。

在第一步中，我们将 $λ$ 个站点作为顶点，并将空气质量变化与站点之间的距离之间的相关比率视为边的权重。在划分步骤中，使用Girvan-Newman算法划分加权网络并获得站点的区域划分。

首先，我们定义一个连接网络 $G=(V,E)$ 。在网络中， $V$ 表示顶点的数据集， $E$ 表示网络的0-1矩阵，如果顶点i和顶点j连接，则 $E_{i,j}=1$ ，否则 $E_{i,j}=0$ . 还定义了加权矩阵 $A$ ，与 $E$ 大小相同，以表示网络中顶点i和顶点j之间的边缘的权重。通常，我们使用Pearson相关系数来表示站点之间的相关性。

（Pearson相关系数（Pearson Correlation Coefficient）是用来衡量两个数据集合是否在一条线上面，它用来衡量定距变量间的线性关系。相关系数的绝对值越大，相关性越强：相关系数越接近于1或-1，相关度越强，相关系数越接近于0，相关度越弱。）

顶点i和顶点j的边缘的权重 $A_{i,j}$ 是空气质量数据的Pearson相关系数 $r_{i,j}$ 与两个顶点之间的距离之比。定义如下：

$V_i$ 表示每个顶点的日平均空气质量数据， $d_{i,j}$ 是顶点i和顶点j之间的距离， $Cov(.)$ 定义两个变量的协方差， $Var(.)$ 表示方差。在GN算法中，存在一个核心概念，模块化函数Q，这意味着使Q函数最大时网络划分是最佳的。在正常加权网络中，Q函数可表示为：

其中δ是隶属函数。当顶点i和顶点j属于同一区域时，隶属函数δ为1，否则它等于0. M是网络中边缘权重的总和，定义为 $M=\frac{1}{2}\sum A_{i,j}$ 。 $k_i$ 是顶点i的度，其通过对矩阵E的第i行求和来计算。

为了聚集站点，应首先计算与未加权网络的0-1矩阵中的每个连接边 $E_{i,j}$ 对应的边界间距 $b_{i,j}$ 。接下来，边缘间距 $b_{i,j}$ 除以相应边缘的权重 $A_{i,j}$ ，结果为 $φ_{i,j}$ 。然后，我们去掉比率 $φ_{i,j}$ 最大的边 $E_{i,j}$ $(E_{i,j}=0)$ ，并计算网络的模数函数Q. 若最大比率 $φ_{i,j}$ 同时有多个边缘时，应当同时移除这些边缘，并且在第T个划分时记录Q值。重复上述过程，直到删除网络中的所有边缘。最后，找到具有最大Q值的序列号T，然后将边缘从初始状态转换到到第T个划分。剩余矩阵是具有划分区域的最终连接矩阵。算法1给出了完整的伪代码。

联邦区域学习

联邦区域学习基于分布式学习和边缘计算，其权重更新方法类似于联合学习原理。然而，联邦区域学习侧重于较低层模型，例如区域模型，而不是顶层的中心模型。我们在将模型更新到中心服务器之前测试并保存区域微云上的下层模型，最佳模型将是推断该区域的空气质量数据的区域模型。这意味着每个地区不使用相同的全球模型来获取空气质量数据，而是使用其自己的额外训练模型来推断空气质量数据。显然，区域模型具有更多区域特征，因此该区域模型的准确性高。

为了实现这种方法，我们构建了一个新颖的体系结构，如图2所示。在该体系结构中，监测站点的数据通过GN算法转换为M个区域微云。每个微云i（i∈{1,2，...，M}）都有自己的区域模型 $R^i$ 及其分区数据集 $S_i$ 。在每个通信回合t的开始，中央服务器分配当前的全局模型权重 $W_t$ 。微云使用基于全局层模型权重Wt的局部数据集 $S_i$ 训练新模型 $R^i_{t + 1}$ 。训练之后，每个云将当前区域模型 $R^i$ 的准确性与新模型 $R^i_{t + 1}$ 的准确性进行比较，并将更好的模型作为新的区域模型 $R^i$ 。然后，新的区域模型 $R^i$ 被发送到中央服务器以供下一个联合。联合所有区域模型权重时，在通信t上设置R，可以通过以下公式更新模型权重：

其中ki = | Si |和n =| Si |。通过平均整个区域模型集R获得新的全局模型Wt + 1.最后，新的全局模型立即再次分发到每个微云并且进行迭代。此外，有三个关键的超参数来控制联邦区域学习中的计算量：C（C∈[0,1]），需要在每一轮训练新区域模型的客户比例; E，每个微云在一轮中训练其本地数据集的本地时期的数量;和B，用于微云更新的本地批次的大小。

对于联邦区域学习，参数E的含义是特殊的。区域模型是在微云上进行E时代训练的最佳模型。因此，E的大小将决定全球模型的影响程度和区域特征。 E越大，模型的区域特征越明显，与全局模型的联系越弱; E越小，模型的区域特征越模糊，与全局模型的联系越强。因此，参数E的调整尤为重要。

III. 应用：用FRL进行PM2.5的推测

为了使实验能够反映区域模型的质量，我们构建了一个可以推断其区域实时PM2.5类别的系统。该系统构建在2层长短期记忆网络（LSTM）[12]上，每层有128个隐藏单元。 LSTM网络训练模型，用于根据之前的48小时天气和空气污染数据（简称W＆A数据）推断当前的PM2.5类别。在LSTM网络中，损失函数是分类交叉熵，优化器是Adam，其初始学习率设置为l =0.001。

（损失函数（loss function）或代价函数（cost function）是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中，损失函数通常作为学习准则与优化问题相联系，即通过最小化损失函数求解和评估模型。交叉熵（Cross Entropy）是Shannon信息论中一个重要概念，主要用于度量两个概率分布间的差异性信息。）

为了更好地比较不同方法之间的性能，我们还建立了集中式训练模式系统和标准联邦学习系统作为比较模型，其具有相同结构和超参数的LSTM网络。至于实验数据集，我们在网上检索了超过100,000个带有PM2.5类别的W＆A数据。这些W＆A数据由天气/空气质量监测站点生成，并由官方网站每小时发布。 W＆A数据集包含PM2.5的12个类别相关数据，如温度，湿度，NO2和SO2等。在训练过程中，我们选择每月前25天的数据作为训练集和数据最后5天作为测试集。

在实验中，我们的第一个目标是评估数据集划分的效果，并选择最佳划分结果来确定微云的部署和数据。此外，我们更重要的目标是使用W＆A数据集来验证FRL是否可以提高培训模型的效率和PM2.5类别的推理准确性。为了获得更好的模型，我们还研究了联邦学习和FRL的不同超参数组合。评估指标如下：（a）每个区域的PM2.5类别分类的最高平均准确度; （b）培训最佳模型的通信轮次（每批更新需要通信轮次）。在实验结束时，我们还讨论了多层结构并证明了其可行性。

A.区域划分评估

在本实验开始时，W＆A数据集分布在北京的13个样本监测点。采样前后15天的日平均PM2.5作为该站点的主要数据，每个站点之间的距离根据其坐标计算。然后我们建立网络，将监测站点作为顶点，并将PM2.5相关系数与每个点之间的距离的比率作为边缘的权重。由于监测站点位于同一城市，因此它们的PM2.5值非常相似，站点之间的距离也非常短。因此，在构建加权网络时，我们只连接相关系数ri，j> 0.95和距离 $d_{i,j}<10$ 千米的两个顶点（即Ei，j = 1），否则Ei，j =0。在划分站点的过程中，我们的程序计算函数Q的最大值为0.68，同时将13个监测点分为8个区域。

图3总结了我们的区域化特定结果，很容易看出划分的结果非常区域化。在实际网络中，函数Q的值通常在0.3-0.7之间，函数Q的值大于0.7的概率非常小。因此，我们的区域化结果的效果是可取的，因为函数Q的值非常接近0.7。

此外，我们引入提出的聚类系数 $L_R$ 来评估我们的划分结果。根据聚类系数的定义，它可以测量局部区域的接触程度。它由以下公式定义：

其中n是区域中监视站点的数量， $max_jA_{ij}$ 表示顶点i的相邻边缘的最大权重。该区域的聚类系数与该区域的连通性正相关。

图4示出了每个区域的平均聚类系数和函数值随分割时间变化的曲线。应该注意，聚类系数相对较低的原因是因为我们计算每个区域的平均值。在一些区域中，只有一个顶点，并且聚类系数为零，这降低了聚类系数的平均值。在图4中，我们观察到聚类系数和函数Q的值在第13个分区达到最大值。这表明当Q值达到最大值时，每个区域的聚类程度最大，分割效果最佳。

B. 联邦区域学习评估

在这一部分中，我们通过比较集中式培训模式，标准联邦学习和联邦区域学习来评估联邦区域学习的效率和有效性。区域化的结果用于将W＆A数据收敛为每个区域的数据集。然后我们分别测试每个区域的数据，并获取平均值作为评估的基础。在消除无效和默认数据后，每个区域大约有4000个用于训练的数据和1000个用于测试的数据。此外，为了确保公平性，我们在开始时为每种训练方法训练一个固定的初始模型，准确率为35.34％。

在联邦学习和联邦区域学习中，我们通过使用E∈{1,3,5}，C∈{0.3,0.5,1}和B∈{96,196}来尝试各种超参数组合。

表1显示了每个案例在t <50范围内的准确性和通信轮次。由于B的大小可以直接影响通信轮次的计算，我们将B = 96和B = 196分为两种情况，以便在比较其通信成本时进行讨论。结果，联合区域学习在820次通信轮次中达到最高准确度81.09％，当E = 5，C = 0.3和B = 96时，联邦学习的最佳性能设置是E = 5，C = 0.3和B = 196.当然，我们当E = 5，C = 0.3和B = 96时，不能忽视标准联邦学习仅使用492个通信轮次来达到75.64％的准确率。同样，我们在集中训练系统中也采用批量大小等于96或196。

表2列出了最高精度模型的结果，其中B∈{96,196}。结果表明，在较少的通信轮次中，区域模型比集中训练系统模型和联邦学习模型具有更高的准确性。在B = 96和B = 196的情况下，联邦区域学习需要比集中训练模型少3.12倍和2.7倍的通信回合以获得更好的准确度模型，并且获得比联邦学习高5.45％和4.8％的准确度模型小差异通信轮次中的模型。为了更好地理解w.r.t通信轮次的所有模型的预测性能，我们进一步绘制每个最佳模型的准确性曲线与通信轮次的变化。

图5表明联邦区域学习比其他方法表现更好。联邦区域学习可以通过更高的最佳准确度显着降低通信成本。这表明我们对联邦区域学习的想法比LSTM训练区域化模型的集中培训系统和标准联合学习更有效和有效。联邦区域学习可以很好地提取区域特征并获得更高的准确性。

IV.讨论：多层结构

完善我们的联邦区域学习方法，以适应需要训练包含更广泛区域的模型的更多情况。但是，更大的区域意味着更多的数据，更多的模型和更大的参数。这些将增加训练成本并降低传输效率。我们讨论构建一个多层结构，以获得更大面积的模型，不仅是区域模型，还有城市模型甚至国家模型等。这些模型可以在多个低层进行训练，具有可接受的通信效率和模型精度。每个低层包含几个具有多个区域模型的微云。例如，我们可以构建一个3层结构，它有两个低层来提取每个区和社区的特征。每个地区和社区都有自己的微型云，用于培训或联合区域模型。我们相信这种方法可以有效避免模型数据过度传输和低效培训等问题。

在N层结构中，我们可以认为模型的每个权重更新都类似于平均区域模型权重以在联合区域学习中更新全局模型的过程。因此，为了平均N层结构的所有权重，我们有：

注意第N层用于中央服务器， $W^j_{t+1,i}$ 是第i层的第j个模型的权重。其中 $V_{i,j}$ 是属于第j个较低模型的子客户端或子服务器的数量， $\frac{k^j_{j,v}}{k^i_j}$ 是每个子数据集大小与所有较低层数据集大小的比。由于 $k^i_{J,v}W^v_{t+1,i} = \sum^{J}_{j=1}k^{i-1}_jW^j_{t+1,i-1}$ 其中J是第i层中的中间模型的数量，因此可以将上述公式放入以下公式。为了整合上述公式，我们将公式6减少为：

权重更新的公式等于公式4。总之，对于第i层，第j层下层模型的权重根据以下平均：

推导了多层结构的权重更新公式。在训练低层模型时，它不会影响2层联合区域学习的结果。如果我们通过公式8使用多层结构训练低层模型，我们可以通过方程式计算每个模型的权重。此外，重要的是要注意超参数E，B和C的设置。参数E和B仅在最低层的微云训练模型时才有效，并且在其他层中无意义。至于参数C，我们需要在每一层调整它。

V.结论和未来工作

在本文中，提出了联邦区域学习的概念和模型，它结合了区域特征和学习网络的结构一般性。在此基础上，我们利用边缘计算架构开发了城市环境感知推理框架，可以同时解决计算效率和模型性能问题。还将FRL的双层结构扩展到多层结构，以适应更广泛的应用场景。未来，我们将完成FRL的多层结构，并用它来解决更多应用领域的分布式学习问题。

论文结构

文章出处

ieeexplore.ieee.org/document/86…

Liang Liu, Binxuan Hu, Yujia Gao, and Huadong Ma, “Federated Region-Learning: An Edge Computing Based Framework for Urban Environment Sensing,” 2018 IEEE Global Communications Conference, GLOBECOM 2018 - Proceedings, 2019.

【论文阅读】Federated Region-Learning: An Edge Computing Based Framework for Urban Env