数据驱动神经网络声场预测文献阅读

20 阅读9分钟

引言

声场计算太慢了,即使现在有的各种并行方法,比如bellhopcxx也还是太慢了,对于大量声场计算的需求,比如说混响、噪声、声学地图、航迹规划等,都不满足快速计算性,神经网络可以用来对声场计算进行加速。

Predicting transmission loss in underwater acoustics using convolutional recurrent autoencoder network

这篇论文提出了CRAN网络用来递归性的学习声场的计算过程,思路有点类似传统的抛物方程求解过程,在距离r上进行步进。

CRAN网络包括自编码-解码器和LSTM模块,两个部分分别训练。

自编码-解码器通过自监督训练,对一个TL(R,Z) 比如10km距离范围5000m深度的传播损失,输入和输出都是这个TL,通过自监督方式进行学习。

LSTM等待自编码-解码器训练完成后,冻结器参数,进行训练。

该方法的优点是带有一定的递推物理特性,这和前向传播的声传播比较接近。

缺点也很明显,需要初始场、初始场的范围影响递推的精度,LSTM难以并行,长序列可能遗忘等。

image.png

Machine Learning Transmission Loss Predictions in Acoustic Field Experiments

这篇论文是基于LightGBM 方法的树遍历方法,提高了传播损失获取速度,但是牺牲了部分物理精确性。

优点:基于bellhop计算的查表+内插和外推,保证了一定的计算精度。

缺点:牺牲精度,不同环境不同频率需重新训练,目前只输出点对点的传播损失结果。

End-to-end underwater acoustic transmission loss prediction with adaptive multi-scale dilated network

使用UNET输入声源深度和频率,对声场传播损失进行学习。

网络架构特点

1. 基础架构:U-Net

  • 采用经典的编码器-解码器(Encoder-Decoder)对称结构
  • 使用 3×3 卷积层批归一化(Batch Normalization)ReLU 激活函数 作为基本组件
  • 通过 最大池化层(Max Pooling) 逐步降低特征图空间维度
  • 使用 跳跃连接(Skip Connections) 将编码器阶段的特征图直接传递到对应的解码器阶段,保留细节信息并缓解梯度消失问题

2. 核心创新:自适应多尺度空洞卷积模块(Adaptive Multi-Scale Dilated Module)

这是 MultiScale-DUNet 的关键改进,具有以下特点:

表格

特点说明
多分支并行结构使用多个分支同时处理不同尺度的特征
空洞卷积(Dilated Convolution)通过调整膨胀率(dilation rate)在不增加参数的情况下扩大感受野
自适应权重融合各分支输出通过可学习的权重(α)进行自适应加权融合
残差连接每个分支采用残差结构,将输出与输入相加,增强训练稳定性
多尺度特征提取不同分支设置不同的膨胀率(如 d=1, 2, 3),捕捉不同尺度的声学场特征

3. 数据预处理:声源空间-频率编码

由于输入仅为声源深度和频率两个标量,论文设计了特殊的编码方法:

  • 将归一化的深度和频率信息嵌入到与预测声场相同尺寸的稀疏矩阵中
  • 利用圆柱坐标特性,将声源信息放置在矩阵的第一列对应位置
  • 使 CNN 能够有效利用其空间特征提取能力

4. 性能优势

根据论文实验结果,MultiScale-DUNet 相比标准 U-Net 具有:

  • 更低的预测误差(MSE 显著降低)
  • 更高的结构相似性(SSIM 达到 0.99 以上)
  • 更快的收敛速度
  • 更强的多尺度特征捕捉能力,尤其在复杂海洋环境中表现优异

该网络实现了端到端的水下声学传播损失预测,仅需声源深度和频率即可快速预测整个二维声场分布,计算效率比传统数值模型(KRAKEN)提升近 90%

image.png

5. 不足

环境单一简单,没有考虑海底地形等对网络训练的影响。

Dynamic multi-task neural network for end-to-end prediction of deep-sea acoustic transmission loss

这篇论文(DMT-UNet)是同一研究团队(Sun et al., 2025)的后续工作,针对深海多范围声场预测问题。让我详细分析:

网络架构设计

核心创新:动态多任务U-Net(Dynamic Multi-Task U-Net)

┌─────────────────────────────────────────────────────────┐
│                      输入层                               │
│  3通道 200×200 矩阵(深度+频率+声速剖面空间编码)          │
└─────────────────────────────────────────────────────────┘
                           ↓
┌─────────────────────────────────────────────────────────┐
│                    共享编码器(Encoder)                 │
│  Conv+BN+ReLU → MaxPool × 4层                           │
│  200×200100×10050×5025×2512×12              │
└─────────────────────────────────────────────────────────┘
                           ↓
        ┌─────────────────┼─────────────────┐
        ↓                 ↓                 ↓
   ┌─────────┐      ┌─────────┐      ┌─────────┐
   │ Decoder 1│      │ Decoder 2│      │ Decoder K│
   │ (Task 1)│      │ (Task 2)│      │ (Task K) │
   │ 20km范围 │      │ 60km范围 │      │ 100km范围 │
   └─────────┘      └─────────┘      └─────────┘
        ↓                 ↓                 ↓
   200×200输出       200×200输出       200×200输出

关键设计特点

组件说明
共享编码器提取多尺度特征,所有任务共用
独立解码器每个范围(任务)有专属解码分支,无参数共享
跳跃连接编码器各层特征分别传递到对应解码器层
动态配置解码器数量K可根据需求调整(实验用K=3,4,5)

输入输出详解

输入:3通道 200×200 矩阵(延续空间-频率编码思想)

通道内容编码方式
M_z声源深度稀疏矩阵,第一列特定行非零
M_ω声源频率稀疏矩阵,第一列特定行非零
M_ssp声速剖面 c(z)整列填充(第1列全部非零)

与前作的关键扩展:增加了声速剖面(SSP)通道,适应深海复杂分层环境。

数据预处理流程(图4):
Zs ∈ [545,555]m, ΔZs=0.1m
ω ∈ [45,55]Hz, Δω=1Hz  
c(z) ∈ {c_mon(z)|mon=1,...,12}(12个月平均SSP)

→ 归一化 → 嵌入200×200矩阵 → 3通道拼接 → DMT-UNet

输出:K个 200×200 传输损失矩阵

任务范围物理意义
Task 120km近场,高分辨率细节
Task 260km中场,过渡区域
Task 3100km远场,全局传播特性

一次前向传播,同时输出多个范围的完整声场

优缺点分析

✅ 优点

优点具体表现
多任务效率相比单任务模型运行3次,共享编码器减少冗余计算
范围自适应每个解码器针对特定距离优化,避免"一刀切"
物理一致性同一编码器保证不同范围输出的物理连贯性
可扩展性增加任务只需添加解码器分支,无需重新设计编码器
极致速度相比BELLHOP提速 98.8%~99.5%(图11)
可解释性梯度可视化(图10)显示解码器逐步重建声场结构

❌ 缺点

缺点具体表现论文承认
任务数限制K增加时精度下降(K=3→5,RMSE 1.61→1.89,图9)✓ 明确提及
无任务间显式约束各解码器独立,未强制20km输出与60km输出的连续性✓ 未来工作
固定范围训练后不能随意更改范围,需重新配置网络✓ 架构限制
深海假设仅验证平坦海底+水平分层,未考虑3D地形✓ 结论部分
仿真到真实差距仅用BELLHOP仿真数据,未验证真实海试数据✓ 未来工作

与前作 MultiScale-DUNet 的对比

维度MultiScale-DUNet (2025)DMT-UNet (2026)
核心问题单范围浅海声场预测多范围深海声场预测
网络架构单编码器-单解码器+多尺度空洞卷积单编码器-多解码器
输入深度+频率(2通道)深度+频率+SSP(3通道)
输出单范围声场多范围声场同时输出
环境适应理想波导真实深海SSP(12个月数据)
精度SSIM0.99, MSE0.24RMSE1.6dB, SSIM0.96
速度提升~90%>98.8%

关键洞察:多任务学习的物理动机

论文第3页指出:

"Motivated by the strong physical correlation among TL distributions at different spatial ranges"

物理直觉:20km、60km、100km的声场并非独立——它们共享相同的声源、相同的环境(SSP),只是观测窗口不同。因此:

  • 共享编码器:学习"这个环境下声波如何传播"的通用表示
  • 独立解码器:学习"在这个距离窗口内如何呈现"的特定转换

这与人类专家的认知一致:先看近场细节,再推断远场趋势,而非每次都重新计算。

缺陷

未考虑地形影响

声速剖面水平不变

Study on the rapid prediction method of regional acoustic propagation fields using deep neural networks

1. 极致简化输入

  • 不用原始地形剖面,而用统计特征
  1. 最大深度、最小深度、平均深度、中位数深度
  2. 海山位置(距声源水平距离)
  3. 最大绝对坡度、平均坡度
  4. 平坦度(深度标准差)
  5. 振荡频率(坡度符号变化次数)
  6. 偏度、峰度
  • 不用完整 SSP,而用固定 Munk 剖面
  • 目标:工程实时应用(1.95ms/批次)

2. 轻量级架构

参数量对比估算:
- Geo-Net: 全连接(11→2048) + 4层转置卷积  ≈  数百万级
- MultiScale-DUNet: U-Net + 多尺度空洞模块  ≈  数千万级

3. 速度优先的权衡

指标Geo-NetMultiScale-DUNet
预测时间1.95ms/10样本~毫秒级(未明确)
相比传统模型提速400倍90%
RMSE3.48 dB~0.24(MSE,不同数据集)
空间分辨率64×64200×200

4. 关键局限(作者明确承认)

  • ❌ 未考虑 SSP 时空变化
  • ❌ 11个维度不一定能够把地形描述清楚
  • ❌ 声源深度不变
  • ❌ 未考虑海底反射/衰减系数
  • ❌ 未考虑水平折射和3D地形
  • ❌ 阴影区多路径信息丢失(图2b可见平滑过度)

image.png

Predicting underwater acoustic transmission loss in the SOFAR channel from ray trajectories via deep learning

这篇论文采用了一种新的方法,将bellhop计算的声线轨迹用二维表示出来,然后把ram计算的传播损失作为标签,放到Unet中学习。

image.png

image.png

优点:将射线轨迹图作为输入,结合了声场数值计算的结果,有一定的可信度。

缺点:

  • 射线的其他参数如幅度、相位、波束宽度未纳入学习系统中
  • 声线图的表征不够压缩,是对数据和算力的浪费
  • 使用ram作为标准模型的合理性没有评价
  • 网络结构没有进一步的设计
  • 非端到端的网络(环境->声场),每次计算需要声线轨迹