用于相位解缠的卷积和空间四向 LSTM 联合网络文章名称：A JOINT CONVOLUTIONAL AND SPATI

文章名称：A JOINT CONVOLUTIONAL AND SPATIAL QUAD-DIRECTIONAL LSTM NETWORK FOR PHASE UNWRAPPING 代码地址：

💡

摘要：相位展开是一个经典的不适定问题，其目标是从包裹相位中恢复真实的相位。在本文中，我们介绍了一种新的卷积神经网络（CNN），该网络结合了空间四向长短期记忆（SQD-LSTM）模块，通过将其表述为回归问题来进行相位展开。结合SQD-LSTM可以避免典型CNN固有的难以学习全局空间依赖性的问题，这些依赖性在恢复真实相位时至关重要。此外，我们还采用了特定问题的综合损失函数来训练这个网络。所提出的网络在严重噪声条件下的性能优于现有方法（信噪比为0 dB时标准化均方根误差为1.3%），同时显著减少了计算时间（0.054秒）。该网络在训练期间也不需要大规模数据集，因此非常适合于数据有限且需要快速准确相位展开的应用。

告诉我这篇文章的作者，关键词；摘要；作者单位；发表时间；发表在什么期刊上

主要内容和创新点：

主要内容：本文提出了一种新的卷积神经网络（CNN）架构，用于解决相位展开问题。相位展开是从观测到的包裹相位信号中恢复真实相位信号的过程，这一问题在多种应用中普遍存在，如磁共振成像（MRI）中的定量易感性映射（QSM）、合成孔径雷达（SAR）干涉测量、条纹投影技术（FPT）和数字全息干涉测量等。在存在噪声、相位不连续和相位快速变化的情况下，相位展开问题变得具有挑战性。传统上，相位展开问题主要通过路径跟踪方法和最小二乘法方法来解决。然而，这些传统方法要么对噪声不具有鲁棒性，要么计算效率不高。为了克服这些限制，作者提出了一种结合了空间四向长短期记忆（SQD-LSTM）模块的编码器-解码器CNN架构。该架构不仅能够捕捉到局部特征，还能通过SQD-LSTM模块学习全局空间依赖性，这对于从包裹相位到真实相位的映射至关重要。此外，作者还设计了一个针对相位展开问题特定的复合损失函数，以提高网络的训练效果。

创新点：

空间四向长短期记忆（SQD-LSTM）模块：这是一个新颖的模块，它通过四个独立的LSTM处理输入特征图的四个不同方向（左到右、右到左、上到下、下到上），以捕捉图像中的空间关系，这对于相位展开是至关重要的。
编码器-解码器CNN架构：提出的网络采用了全卷积编码器-解码器架构，其中编码器的输出通过SQD-LSTM模块传递，然后再输入到解码器。这种结构使得网络能够结合局部特征和全局空间依赖性。
特定问题的综合损失函数：为了适应相位展开问题的特性，作者设计了一个复合损失函数，该函数由误差的方差损失和总变分损失组成，这有助于网络在训练过程中找到更符合相位展开特性的解。
对噪声的鲁棒性：在低信噪比（SNR = 0 dB）的条件下，所提出的网络显示出了对噪声的高度鲁棒性，并且在计算时间上远快于现有方法。
无需大规模数据集：与其它基于深度学习的方法相比，该网络在训练时不需要大规模数据集，这使得它非常适合于数据受限的实际情况。
快速计算：在计算时间上，所提出的网络显著快于现有技术，这对于需要快速相位展开的应用场景非常有用。

这些创新点使得所提出的网络在相位展开任务上表现出色，尤其是在处理噪声较大或数据量有限的情况时。

文章部分内容摘录：

1. 引言

相位展开问题在许多应用中都很普遍，例如磁共振成像（MRI）中的定量易感性映射（QSM）[1]、合成孔径雷达（SAR）干涉测量[2]、条纹投影技术（FPT）[3]和数字全息干涉测量[4]。其目标是从观测到的包裹相位信号中恢复真实的相位信号，该信号的范围在(−π, π]。虽然在理想条件下从包裹相位恢复真实相位可能很方便，但在存在噪声、相位不连续和相位快速变化的情况下，相位展开问题变得具有挑战性。

相位展开问题通常通过两种主要方法来解决：（1）路径跟踪方法和（2）最小二乘法方法。

（1）路径跟踪方法，如质量引导相位展开（QGPU）算法[5]和分支剪切算法[6]，通过沿选定路径整合相位来执行相位展开。尽管路径跟踪算法在计算上相对高效，但它们对噪声不具有鲁棒性。

（2）基于最小二乘的算法[7]对噪声具有鲁棒性，但它们的计算效率不如路径跟踪方法。

近年来，深度学习算法在许多计算机视觉任务中取得了突破性进展，并越来越受欢迎。遵循这一趋势，一些最近的研究[8, 9, 10, 11]尝试将深度学习应用于解决相位展开问题。其中，[8, 9, 10]将相位展开问题重新定义为语义分割任务，训练全卷积网络（FCNs）以预测每个像素的包裹计数。在这些方法中，Spoorthi等人的[8] PhaseNet 2.0，一个由密集块[12]组成的深度编码器-解码器架构，具有最佳的相位展开性能。据我们所知，只有Wang等人[11]将相位展开视为回归问题，使用受U-NET[13]和ResNet[14]启发的FCN直接从包裹相位估计真实相位。

尽管这些基于FCN的相位展开方法在不同噪声水平下表现合理，并且计算时间大大减少，与传统方法相比，但它们需要大规模数据集，从而降低了它们在现实世界应用中的适用性。

此外，仅基于FCN的方法存在另一个问题。典型CNN中局部执行的卷积和池化操作常常忽略了图像不同区域之间的全局空间关系。由于大多数现实世界相位图像包含某些空间结构，因此在学习从包裹相位到真实相位的映射时，对这些全局空间关系的建模至关重要。

递归神经网络（RNNs）[15]是一种能够对时间序列内的上下文关系进行建模的神经网络类型。然而，不可能直接将RNN应用于图像的特征图。ReNet[16]和C-RNN[17]介绍了将RNN应用于特征图的方法，受到它们的启发，Ryu等人[18]尝试使用结合卷积和递归网络的方法在MRI图像中进行相位展开。然而，这项工作没有提供任何定量结果，并且没有考虑噪声对相位展开的影响。尽管传统的RNN可能会取得一些成功，但由于它们在建模长期依赖性方面的限制，它们在建模由特征图派生出的长序列中的空间关系时可能不太合适。长短期记忆（LSTM）[19]，一种能够建模长期依赖性的RNN特殊类型，在这种情况下将更为合适。为了解决这些缺点，本文提出了一种编码器-解码器CNN架构，该架构结合了空间四向LSTM模块，结合了FCN和LSTM的能力，以实现准确和快速的相位展开，而无需在大规模数据集上进行训练。然后，我们描述了一个由误差的方差和总变分误差损失组成的针对问题的综合损失函数，以训练这个网络。最后，我们报告了一个全面研究的发现，该研究将所提出的网络与PhaseNet 2.0、Ryu等人的方法和QGPU在不同噪声水平下进行了比较。这些发现证实，与其他方法相比，所提出的网络在执行相位展开时显示出对严重噪声条件的强大鲁棒性和高计算效率。

2. 方法论

2.1. 数据生成

本研究中使用的数据库由包含随机形状的合成相位图像及其相应的包裹相位图像组成。这些随机形状是通过添加和减去具有不同形状和位置的几个高斯函数来创建的。以这种方式混合高斯函数确保形成了不规则和任意的形状，而不是明确模式，这反过来又使所提出的网络能够学习任何一般模式的相位连续性。此外，为了将斜坡相位纳入其中，还在合成相位图像的垂直和水平方向上添加了随机选择的斜率。合成相位图像φ(x, y)的包裹相位图像ψ(x, y)计算如下： ψ(x, y) = ∠ exp( jφ(x, y)) (1) 其中，(x, y)是像素的空间坐标，j是虚数单位。按照此方法，创建了两个数据集，每个数据集包含6000个相位图像（256×256），其值范围从-44到44。其中一个数据集中的相位图像在包裹之前随机添加了0、5、10、20和60 dB的高斯噪声水平，以模拟现实世界应用中包裹相位图像中普遍存在的噪声。我们将这个数据集称为“噪声”数据集，另一个称为“无噪声”数据集。

2.2. 空间四向LSTM模块

设X = {x_{ij}} ∈ R^{w×h×c}为输入特征图，其中w、h和c分别是X的宽度、高度和特征维度。从X中，我们可以派生出四个不同的序列，如下所示：

\begin{gathered} x\rightarrow =\left\{\mathbf{r}_{i}\right\}_{i=1...h};\mathbf{r}_{i}=\left(x_{i1},x_{i2},\ldots,x_{iw}\right) \\ x\leftarrow =\left\{\mathbf{r}_{i}\right\}_{i=h...1};\mathbf{r}{i}=\left(x_{iw},\ldots,x_{i2},x_{i1}\right) \\ \text{x↓ } =\left\{\mathbf{r}_{i}\right\}_{i=1...w};\mathbf{r}_{i}=(x{1i},x_{2i},\ldots,x_{hi}) \\ x_{\uparrow} =\left\{\mathbf{r}_{i}\right\}_{i=w...1};\mathbf{r}_{i}=\left(x_{hi},\ldots,x_{2i},x_{1i}\right) \end{gathered}

换句话说，x→、x←、x↓和x↑分别代表当一个人分别从左到右、右到左、从上到下和从下到上遍历X时获得的序列，

如图1所示。设x是上述四个序列中的任何一个。

那么x^{(s)} ∈ R^c，其中s ∈ [1, ..., w × h]是描述原始图像中相应区域的特征向量。为了模拟这四个序列内的空间关系，我们使用了专门建模长期依赖性的LSTM。简单来说，序列x的LSTM层的输入输出关系可以写为： y^{(s)} = LSTM(x^{(s)}, y^{(s−1)}; W_x, u) (2) 其中，y^{(s)} ∈ R^u是s处的LSTM输出，W_x是统一的LSTM权重，u是层中的单元数。在我们的SQD-LSTM模块中，x→、x←、x↓和x↑由4个具有统一权重Wx→、Wx←、Wx↓和Wx↑的独立LSTM处理。

通过重新排列4个LSTM的输出序列y→、y←、y↓和y↑，我们获得了每个输出特征图Y→、Y←、Y↓和Y↑，每个特征图的尺寸都是R^{w×h×u}。

与水平（Y→、Y←）和垂直（Y↓、Y↑）方向相关的输出特征图被按图1所示的方式连接，并通过分别包含d个过滤器的独立3×3卷积层传递，以探索由LSTM层获得的空间特征的局部关联。最后，通过两个卷积层的输出特征图形成SQD-LSTM U ∈ R^{w×h×2d}的输出，通过连接两个卷积层的输出特征图来形成。在本研究中，u和d分别设置为32和64。

2.3. 网络架构

所提出的网络架构如图2所示。简言之，该架构由一个全卷积编码器-解码器网络组成，编码器的输出在输入到解码器之前会通过所提出的SQD-LSTM模块。编码器的输出特征图能够表示输入图像的局部信息。将这个编码器输出传递给SQD-LSTM模块，允许网络学习编码器输出中包含的局部特征之间的空间依赖性。随后，SQD-LSTM模块的输出被送入解码器网络，该网络通过转置卷积操作提高输出的分辨率。此外，为了从解码器层和编码器层结合语义特征和局部特征，我们在图2中显示的方式添加了跳跃连接。这样添加跳跃连接，确保网络在后续层中组装出更精细的输出。网络中的每个卷积块都包含一个3×3的卷积层，后面跟着一个批量归一化层和一个ReLU激活层。每个编码器卷积块后面跟着一个2×2的最大池化层，步长为2，而每个解码器卷积块前面则是一个3×3的转置卷积层，步长为2。由于网络执行的是回归任务，解码器层的最后一个卷积块后面是一个带有线性激活的1×1卷积层。

2.4. 损失函数

由于我们将相位展开问题表述为回归任务，因此损失函数的首选是均方误差（MSE）损失。然而，我们的实验表明，当使用所提出的网络时，MSE损失显示出不足的收敛性，导致相位展开性能较差。根据(1)，可以得出φ + 2πn（对于所有n ∈ Z）会产生相同的包裹相位ψ。因此，ψ的相位展开问题没有唯一解。由于MSE损失强制网络学习一个唯一的解，所以它并不适合相位展开问题的特性。因此，需要一个在收敛时允许其他解决方案的同时增加预测相位ˆφ和真实相位φ之间相似度的损失函数。为了解决这些问题，我们采用了下面定义的复合损失函数Lc。

Lc = λ1Lvar + λ2Ltv (3)

其中，

Lvar = E[(ˆφ − φ)^2] − [E(ˆφ − φ)]^2 (4)

Ltv = E[|ˆφx − φx| + |ˆφy − φy|] (5)

λ1和λ2是分配给两个损失的权重，在训练期间经验性地设置为1和0.1。误差的方差损失Lvar允许在收敛时存在其他解决方案，而总变分误差损失Ltv通过强制网络匹配它们的梯度来增加ˆφ和φ之间的相似度。

3. 实验和结果

所提出的网络在Keras中实现，并分别在第2.3节提到的两个数据集上进行训练和测试。在两种情况下，模型都是使用学习率为0.001的ADAM优化器进行训练，并且在大约1.5小时内收敛，大约10个周期内完成。同样，Ryu等人的[18]网络、PhaseNet 2.0 [8]和QGPU [5]也在这两个数据集上实现并进行了测试。其中，Ryu等人的网络和PhaseNet 2.0在噪声和无噪声数据集上都进行了训练。此外，为了评估SQD-LSTM模块和损失函数Lc的重要性，我们还训练并测试了两个独立的U-NET（其卷积架构类似于所提出的网络），一个使用MSE作为损失函数，另一个使用Lc，并且仅使用无噪声数据集。上述所有训练和测试都是在NVIDIA Tesla K80 GPU上进行的，每个数据集的固定训练-测试拆分比例为5000-1000。为了评估和比较这些方法，我们计算了展开相位图像的归一化均方根误差（NRMSE - 通过相应真实相位图像的范围归一化）并测量了每种方法的每个输出的平均计算时间。这些结果总结在表1中。图3展示了每种方法获得的一些选定的无噪声和噪声（10 dB和0 dB）包裹相位图像的展开相位图像，以及噪声水平与NRMSE的对比图。

从表1可以看出，QGPU在无噪声图像的展开上取得了近乎完美的性能。然而，在噪声图像方面，它的性能较差，并且与深度学习方法相比，其平均计算时间（35.42秒）非常高。另一方面，所提出的方法在无噪声图像方面达到了与QGPU相当的性能（NRMSE = 0.84%），在噪声图像方面达到了最高性能（NRMSE = 0.9%），并且在比较的方法中具有最低的平均计算时间（0.054秒）。从图3（b）可以看出，所提出的网络能够准确地（NRMSE = 1.26%）展开高达信噪比SNR = 0 dB的严重噪声水平的包裹相位图像。还观察到，所提出的网络超越了目前保持基于深度学习的相位展开性能最高水平的PhaseNet 2.0。PhaseNet 2.0是一个比较深的网络，由密集块组成，因此其训练过程对数据量要求很高。然而，在本研究中，由于使用了相对较小的训练数据集（5000张图像），其相位展开误差有所增加。尽管如此，所提出的网络在仅训练了5000张图像后，就达到了考虑的方法中噪声数据的相位展开性能最高，因此非常适合于数据有限的现实世界应用。如表1所示，使用Lc的U-NET比使用MSE的U-NET具有更好的相位展开性能。因此，很明显Lc是这个问题比MSE更合适的损失函数。同时，也可以看出所提出的方法比使用Lc的U-NET表现更好。在实验中，我们还注意到所提出的网络比任何考虑的方法都更快地收敛。这些观察结果使我们得出结论，所提出的网络的成功归功于SQD-LSTM模块和Lc损失函数。

请注意，这是对原文第三节的直译，可能在专业术语和表达上保留了原文的精确性。

补充知识点

本文使用文章同步助手同步