深度学习在物理层信号处理中的应用研究随着移动流量呈现的爆发式增长、高可靠性和低时延的通信场景给当前网络带来了更大的复杂性

摘要：本文主要介绍基于深度学习的物理层应用，并提出一种基于深度Q网络（DQN）的MIMO系统位置信息验证方案，接收者在多变未知的信道环境下利用深度Q网络不断更新。

01引言

随着移动流量呈现的爆发式增长、高可靠性和低时延的通信场景给当前网络带来了更大的复杂性和计算挑战。据IBM报道，移动数据量到2020年将超过40万亿Gbits，比2009年增加44倍，连接总设备量将达到500亿。为了满足这一需求，需要新的通信理论和创新技术来满足5G系统的需求。近些年深度学习范式的发展使引起了学术界和工业界对基于深度学习的无线通信技术的研究，研究结果证实了深度学习技术可以提高无线通信系统的性能，并有潜力应用在物理层进行干扰调整、信道估计和信号检测、信号处理等方面。

02深度学习范式

深度学习的概念源于人工神经网络（ANN）的研究，由Hinton等人于2006年提出。如图1所示，深度学习通过建立具有阶层结构的ANN，往往包含一个输入层、多个隐藏层和一个输出层。每个层之间采用不同的权重与邻层之间进行连接，通过对输入信息进行逐层提取和筛选，可以实现端到端的监督学习和非监督学习。深度神经网络包括前馈神经网络（FNN）、循环神经网络（RNN）、卷积神经网络（CNN）、对抗生成网络（GAN）和深度信念网络等。其中基于门控的RNN，例如长短期记忆（LSTM）网络对于输入有一定的记忆功能，因此常被用于物理层信号处理和信道状态信息估计等。此外，深度学习也可参与构建强化学习（RL）系统，形成深度强化学习，例如深度Q网络（DQN）[1]，可以用于对物理层信号处理策略制定的优化。

1）长短期记忆网络

作为RNN的一个变体，长短期记忆网络可以有效解决简单循环神经网络的梯度爆炸或消失问题。RNN通过隐状态来存储历史信息。在简单的RNN中，隐状态的每个时刻都会被重写，因此可以看作是一种短期记忆。而在LSTM网络中，记忆单元保存关键信息的时间要长于短期记忆。LSTM网络引入门机制来控制信息传递的路径。门机制取值在0到1之间，来控制信息通过的比例。LSTM网络主要包括了3个门，其中遗忘门控制上一个时刻的内部状态需要遗忘多少信息；输入门控制当前时刻的候选状态保存多少信息；输出门控制当前时刻的内部状态有多少信息需要输出给外部状态。

2）深度Q网络

DQN将CNN与Q学习结合起来，采用Q 学习的目标值函数来构造深度学习的目标函数，利用记忆回放机制来解决数据之间的关联性问题，并采用迭代更新解决系统稳定性问题。假设环境在时刻所处的状态为，代理根据一定的策略来采取动作，并获得奖励。然后，环境在时刻转移到以转移概率转移到了下一个状态。在DQN中，代理通过一系列行动与环境进行交互，目的是最大化累积奖励。

同时，采用基于卷积神经网络的经验回放来进行Q函数的不断近似。在经验回放中，代理每一步使用ξ-greedy来选择动作，并将每个时刻的学习经验保存在经验池中。在算法的参数更新循环里，对记忆池里的样本进行随机采样或批量随机采样，通过Q学习对模型进行参数更新。并通过CNN来根据之前的经验，不断近似最大的Q值。CNN的损失函数就是近似的Q值与真实Q值之间的偏差，通过梯度下降算法不断调整神经网络的权重，就可不断减少损失函数的值。

03 基于深度学习的物理层信号处理应用

近年来，学术界和工业界已经出现了一些深度学习应用于物理层的相关工作，研究结果发表深度学习可以提高物理层性能。本小节从物理层信号处理的角度，从信道状态信息（CSI）估计、信号编解码、干扰调整和信号检测四个方面对目前已有的相关工作进行举例和说明。

1）基于深度学习的CSI估计

精确的CSI获取对于保证无线通信系统的链路性能至关重要。无线网络根据信道估计状态来选择具体的信号控制方案，例如，当CSI较低时，物理层采用低阶调制方案来对抗恶劣的通信状态从而降低误码率。5G通信系统采用多输入多输出（MIMO）、毫米波和非正交多址接入（NOMA）等技术，使得通信双方拥有更多的传输信道，信道估计问题也变得更加复杂。传统的CSI估计方案需要执行具有高复杂度的矩阵运算，受到了计算资源和时延的限制。

利用深度学习来得到CSI信息时空和上下行之间的关联性，已经被证实可以提高CSI估计的效率，并减少所需上下行参考信息的数据量[2]。如图2所示，论文[3]提出将历史CSI数据经过一个二维卷积神经网络提取频率特征矢量，再利用一个一维卷积神经网络来从频率特征矢量中提取状态特征矢量。最后，一个LSTM网络用来进行CSI状态预测。由于二维卷积神经网络最初是用来处理图片数据的，因此，作者将CSI原始数据分割成单元格，每个单元格对应一个图片像素。每个频带的CSI和辅助信息对应的像素组成一个频道。因此，N个频带的数据将被转换成N个频道的像素信息，并输入到学习框架中。

2）基于深度学习的编解码

深度学习在信源编码和信道编码方面的应用，也证明了其可以提高编码效率并降低网络的BER。基于深度学习框架的联合编码方案可以通过循环神经网络实现对本文的源编码（结构化），然后将结构化的信息输入双向的LSTM网络，并最终输出最终传输的二进制数据流。在接收端，LSTM用来进行解码处理。论文[4]提出了就有全连接深度神经网络的编码器，用来提高基于置信传播算法的HPDC解码效率。O’Shea等人在[5]中将整个物理层建模为一个包含了调制、信道编码和信号分类功能的自编码器，并利用卷积神经网络来对自编码器进行训练。如图3所示，在多密集层神经网络的学习框架中，输入信号被编码为独热编码（One-hot encoding），无线信道建模为一个噪声层。交叉熵损失函数和随机梯度下降算法用来训练模型，在输出端将最高概率的输出信号作为解码结果。

3）基于深度学习的干扰调整

MIMO系统中的干扰调整通过线性预编码技术来调整发射信号，使得接收端的干扰信号可以控制在一个降维子空间里，从而突破MIMO系统干扰问题带来的吞吐量限制。现有工作中已经有研究结果表明，利用深度学习可以提高干扰调整网络中的吞吐量，并取得优化结果。He等人在[6]中提出了采用DQN来获得干扰调整下最优的用户选择策略。在该机制中，中央调度器用来收集所有信道状态和每个用户的缓存状态，并将信道资源分配给每个用户。信道的时变过程用一个有限状态马尔科夫模型来进行建模，系统的状态定义为每个用户的信道状态和缓存状况。中央调度器用来为系统训练处最佳策略，对应的系统动作定义为是否为每个用户分配信道资源来进行数据的传输，来最大化干扰调整网络的吞吐量。DQN也可被用于认知无线电网络中次用户与主用户之间的干扰消除，次用户利用跳频和移动性来抵御干扰者[7]。

4）基于深度学习的信号检测

基于DL的检测算法可以显著提高通信系统的性能，尤其适当传统的处理模块需要联合优化或是信道无法用常见的分析模型来表征时。论文[8]提出了一个五层全连接的DNN框架嵌入到OFDM接收器中来进行联合信道估计和信号检测。将接收到的信号以及对应的传输数据和导频作为输入，DNN可以推断出信道信息，而且可以用来预测发送的数据。在MIMO中检测中，基于贝叶斯最优检测器的迭代方法已经被证实有较优的性能和中等的计算复杂度。但在很多更复杂的环境下，未知的信道分布条件将限制这种检测器的效果。利用深度学习算法，可以根据一定的输入数据来恢复模型参数，从而提高检测器的自适应能力。同时，在一些情况下，深度学习算法还可以利用一些语义信息，例如接收器的位置和周围车辆节点的信息，来进行波束预测，从而提高系统性能。

04 基于DQN的信号检测机制

在基于位置服务的场景中，车辆或者用户需要不断发送信标消息来报告自己的位置，从而提高位置服务和网络性能。但有些车辆或用户会选择发送虚假的位置来获取更多的资源，影响了网络服务的效用。

在MIMO系统中，传输信号往往包含了丰富的信息（到达角、接收功率等）可以在接收端利用信号检测技术对信标消息进行位置验证。我们提出基于DQN的信号检测机制，可以用于MIMO系统中发送者的位置信息验证和对信息伪造者的检测。主要的思想为，接收端对接收的信号采用最大似然估计进行假设检验，当接收到的信号通过检测检验时，则认为发送信号来自于发送者上报的位置。否则，认为发送者上报了虚假的位置信息。为了提高在多变的信道状态下的检测性能，在接收端基于DQN来预测采用不同的检测阈值可以取得的收益，并选取最优的检测阈值。系统框架如图4所示。

1）系统模型 假设检验中的零假设定为发送节点上报真实位置信息，备择假设为发送节点上报了虚假位置信息。在每个时刻，接收端收到发送端的信号都与发送端与接收端之间的真实位置、信道状态和信号到达角有关。在已知发送信息和发送功率的条件下，接收端可以利用最大似然检测来对接收到的信号进行假设检验。

2）最大似然检测 接收端采用最大似然检测算法来验证接收到的信号，检测规则定义为：

其中代表检测阈值，取值范围为。和代表检测结果分别为正常和虚假上报。和分别为观测信号在零假设和备择假设下的后验分布。根据[9]可得，假设检验的结果（误报率和丢失率）与发送者的实际位置、上报位置、信道状况和检测阈值有关。对于接收端来说，发送者的实际位置、上报位置以及信道状态属于未知或部分已知的环境变量，在与发送者之间不断的信息交互过程中，本文提出接收端可以基于DQN来不断优化检测阈值的选择，从而提高信号检测的准确率。

3）基于DQN的检测阈值优化

在本文提出的机制中，将接收端的状态空间分为两个维度，第一个维度是发送端到接收端的信道状态，第二个维度是信道检测的结果。信道状态空间包括量化后的一系列信道指标，并假设信道的状态转移符合马尔科夫过程，即信道在当前时刻的状态都只与上一个时刻的状态有关。结果状态空间包括四种：真实数据检测结果为真、真实数据检测结果为假；虚假数据检测结果为真以及虚假数据检测结果为假。在每次动作过程中，接收端的直接奖励与检测结果有关，当检测结果正确时获得正收益，当检测结果错误时获得负收益。接收端的动作定义为进行信号检测的阈值，动作空间包括一系列量化的检测阈值。在每个片刻，接收端的混合策略为选择不同检测阈值的概率。基于本文第二章介绍的DQN原理，接收端在每次经历后，将自己选择的检验阈值、对应的状态结果和收益存储到经验池，利用CNN对Q函数进行训练预测，不断优化对检测阈值的选择。

05 总结与未来发展建议

在本文中，我们通过现有工作和案例证明了深度学习在物理层通信中的巨大应用潜力。除了以上介绍的几种应用方向，深度学习在端到端通信系统中也得到了一定的应用。不过，目前还尚未有结论基于深度学习的端到端通信系统性能是否会最终超过传统通信系统性能。另外，基于深度学习的物理层应用需要数据驱动，为了提高深度学习模型的训练效率，可以将需要长时间训练的模块进行融合，并需要考虑在良好的性能和训练效率之间的权衡。深度学习应用的兴起主要归功于各种可用的数据集，但目前用于无线通信相关的数据集仍然较少。数据的安全和隐私问题进一步限制了在真实世界对通信数据的访问功能。但为了基于深度学习的通信应用，需要一些开放性电信数据集的发布和共享。最后，5G复杂多变的通信环境，包括MIMO、毫米波通信以及NOMA技术等，也为深度学习的应用带来了巨大的潜力。

参考文献

[1] Mnih, Volodymyr, et al. "Human-levelcontrol through deep reinforcement learning." Nature 518.7540(2015): 529. www.nature.com/articles/na….

[2] A. Mousavi and R. G. Baraniuk, “Learning toInvert: Signal Recovery via Deep Convolutional Networks,” Proc. IEEE Int’l.Conf. Acoustics Speech Signal Process. (ICASSP’17), New Orleans, LA, Mar. 2017,pp. 2272–76.

[3] C. Luo, J. Ji, Q. Wang, X. Chen and P. Li,"Channel State Information Prediction for 5G Wireless Communications: ADeep Learning Approach," in IEEE Transactions on Network Science andEngineering, early access.

[4] E. Nachmani, Y. Be’ery, and D. Burshtein,“Learning to decode linear codes using deep learning,” in Proc. Communication,Control, and Computing (Allerton), 2016, pp. 341–346.

[5] T. O’Shea and J. Hoydis, "An Introduction to Deep Learning for thePhysical Layer," in IEEE Transactions on Cognitive Communications andNetworking, vol. 3, no. 4, pp. 563-575, Dec. 2017.

[6] Y. He, C. Liang, F. R. Yu, N. Zhao, and H.Yin, “Optimization of cache-enabled opportunistic interference alignmentwireless networks: A big data deep reinforcement learning approach,” in Proc.IEEE Int. Conf. Commun. (ICC), May 2017, pp. 1–6.

[7] G. Han, L. Xiao, and H. V. Poor,“Two-dimensional anti-jamming communication based on deep reinforcementlearning,” in Proc. IEEE Int. Conf. Acoust. Speech Signal Process. (ICASSP),New Orleans, USA, Mar. 2017, pp. 2087–2091.

[8] H. Ye, G. Y. Li, and B.-H. F. Juang, “Power ofDeep Learning for Channel Estimation and Signal Detection in OFDM Systems,”IEEE Wireless Commun. Lett., vol. 7, no. 1, Feb. 2018, pp. 114–17.

[9] Bai, Lin, Jinho Choi, and Quan Yu. “SignalProcessing at Receivers: Detection Theory.” Low Complexity MIMO Receivers,Springer, Cham, 2014. pp.5-28.

本文分享自华为云社区《深度学习在物理层信号处理中的应用研究》，原文作者：就挺突然。

点击关注，第一时间了解华为云新鲜技术~