文献阅读：Implicit Neural Representation in Medical Imaging: A Comparative Survey

一、摘要

Implicit neural representations (INRs) have gained prominence as a powerful paradigm in scene reconstruction and computer graphics, demonstrating remarkable results. By utilizing neural networks to parameterize data through implicit continuous functions, INRs offer several benefits. Recognizing the potential of INRs beyond these domains, this survey aims to provide a comprehensive overview of INR models in the field of medical imaging. In medical set tings, numerous challenging and ill-posed problems exist, making INRs an attractive solution. The survey explores the application of INRs in various medical imaging tasks, such as image reconstruction, segmentation, registration, novel view synthesis, and compression. It discusses the advan tages and limitations of INRs, highlighting their resolution agnostic nature, memory efficiency, ability to avoid locality biases, and differentiability, enabling adaptation to differ ent tasks. Furthermore, the survey addresses the challenges and considerations specific to medical imaging data, such as data availability, computational complexity, and dynamic clinical scene analysis. It also identifies future research di rections and opportunities, including integration with multi modal imaging, real-time and interactive systems, and do main adaptation for clinical decision support. To facilitate further exploration and implementation of INRs in medical image analysis, we have provided a compilation of cited studies along with their available open-source implementa tions on GitHub. Finally, we aim to consistently incorporate the most recent and relevant papers regularly.

隐式神经表示（implicit neural representations, INRs）近年来在场景重建与计算机图形学领域取得了显著进展，其通过神经网络对数据进行隐式连续函数参数化，展现出优异的表达能力与灵活性。鉴于医学影像中存在大量复杂且病态的成像与分析问题，INR 为相关任务提供了一种具有潜力的统一建模范式。本综述系统梳理了 INR 在医学影像领域的研究进展，重点总结其在图像重建、分割、配准、新视角合成及压缩等任务中的应用与效果，分析其分辨率无关、内存占用小、弱局部性偏置以及端到端可微等特性所带来的优势与局限。在此基础上，本文进一步讨论了医学影像数据场景下 INR 模型面临的挑战，包括数据获取与标注受限、优化与推理的计算开销较大、动态临床场景建模困难等问题，并探讨了与多模态成像融合、实时与交互式系统构建、面向临床决策支持的领域自适应等未来研究方向与发展机遇。为便于研究者复现与拓展相关工作，本文整理了现有代表性研究及其公开可用的实现代码资源。本文亦计划持续关注该方向的最新进展，并对相关内容进行更新，以期为隐式神经表示在医学图像分析中的进一步研究与临床转化提供参考。

文章链接如下：<[2307.16142] Implicit Neural Representation in Medical Imaging: A Comparative Survey>

二、隐式神经表征的基本思想

传统表示通常是显式的：图像被组织成像素阵列，三维结构被组织为体素、网格或点云。这种方式直观，但往往受限于分辨率、内存和离散采样密度。INR 则把待表示对象看作一个连续函数：

Ψ:x↦Ψ(x)

其中输入 x 是坐标，输出是该坐标处的信号值，例如图像强度、颜色、密度、占据状态等。网络参数本身就构成了信号的压缩表示。

论文指出，INR 的典型实现一般采用 MLP（多层感知机） 。MLP 学会之后，其权重中就“隐式编码”了图像或体数据的结构。因此，INR 可以被视为一种函数式表示，而不是数组式表示。

不过，基础 INR 也有一个重要问题：频谱偏置。即普通基于 ReLU 的 MLP 更容易学习低频信号，而难以准确拟合高频细节，导致边缘、纹理、细小解剖结构等信息表达不足。针对这一问题，论文从三个角度总结了改进策略：

输入编码改进

将原始坐标先映射到高维特征空间，例如：基础正弦映射、位置编码（Positional Encoding）、高斯傅里叶特征（Gaussian Fourier Features）。这样做的目的是增强网络对高频变化的表达能力。

激活函数改进

传统 ReLU 或 tanh 对高频拟合能力有限，而 SIREN 使用正弦函数作为激活，使网络更适合表示细节丰富、导数性质重要的信号，例如图像 Laplacian、物理场和高频边界。

输出结构改进

除了输入和激活函数，还可以通过改变输出结构来缓解低频偏置。例如将输出设计为多头结构，不同输出头负责不同局部区域，从而使网络同时学习全局与局部信息。

此外，论文还专门介绍了 NeRF。NeRF 本质上是将 INR 与体渲染结合，用于根据少量视角生成新视图。输入通常是三维位置和视线方向，输出是颜色和体密度。NeRF 最初来自通用视觉和图形领域，但后来被快速引入医学影像中的 CT 投影合成、手术场景重建等任务。

三、医学影像中 INR 的临床意义

INR 在医学影像中在于该领域长期面临以下困难：

标注成本极高

医学图像的标注通常需要临床医生或资深影像专家完成，过程耗时、昂贵且受隐私与授权限制。相比普通视觉任务，医学数据的人工标注瓶颈更为严重。

成像存在物理限制

例如：MRI 扫描时间长；CT/CBCT 需要控制辐射剂量；呼吸、心跳、患者运动会引入伪影和模糊；稀疏采样会导致图像缺失与重建不完整。自由呼吸或动态场景下，图像模糊与伪影问题尤为突出。

临床任务往往是逆问题

很多医学成像本质上不是“直接预测标签”，而是“根据不完整观测恢复真实结构”，例如：稀疏角度 CT 重建、欠采样 MRI 重建、时间序列动态组织结构恢复、从二维投影恢复三维解剖结构。在这些场景中，INR 的连续建模、无需大量标签、可直接对单个样本拟合的特点非常有价值。

论文还提到一个典型案例：利用 INR 提升脑深部结构 PPN 图谱的空间分辨率，并请放射科专家手工分割进行验证。结果表明，基于 INR 的超分辨和图谱增强有助于改善结构定位与可视化，体现出其潜在临床实用性。

四、分类

作者将医学影像中的 INR 应用划分为五大类：Reconstruction（重建）、Segmentation（分割）、Registration（配准）、 Compression（压缩）、Neural Rendering（神经渲染）。

从论文统计图来看，2021–2023 年间，INR 医学影像论文数量快速增加，其中图像重建占比最高（约 64%），其次是神经渲染、分割、配准和压缩。这说明当前 INR 在医学影像中的主战场仍然是重建与逆问题求解。

图像重建

图像重建是医学影像中的核心任务之一，其目标是从噪声、稀疏采样或不完整观测中恢复高质量图像。传统基于 CNN 的重建方法常常依赖大量训练数据，且在面对结构变化、不同模态、不同器官时泛化性有限。

INR 在重建任务中通常被建模为一个逆问题：输入是来自 CT、MRI、超声等设备的欠采样或带噪测量，输出是完整图像。网络通过学习“坐标 → 强度”的连续映射，在无须大量监督标签的情况下恢复缺失信息。代表性方法有：

NeRP：不需要训练集，而是对单个病例进行三阶段建模。先把已有先验图像嵌入 MLP，再利用稀疏采样观测优化网络，最后在所有坐标上推理出完整图像。该方法可用于 CT 与 MRI 重建。
DCTR：面向动态 4D-CT，先通过 INR 建模一个模板体，再利用参数化运动场描述时间变化，最后通过可微 Radon 变换合成投影并与真实投影对比，实现随时间变化的重建。
IREM / ArSSR：用于 MRI 超分辨与体数据恢复，利用 INR 在三维连续域中补足切片之间缺失的信息，支持任意倍率超分辨。
CoiL：不直接表示图像，而是表示测量场，通过坐标化建模学习传感器响应与成像之间的映射。

图像分割

医学图像分割用于识别器官、肿瘤、病灶或血管结构，是临床诊断和治疗规划的重要基础。传统深度学习分割方法虽然精度高，但在处理复杂拓扑结构时往往面临局限。

INR 在分割中的主要价值，不是简单替代 U-Net 一类网络，而是利用其连续表示能力，更自然地刻画边界与细小结构。代表性方法有：

BS-ISR：将 CNN 与 INR 结合，不是直接输出分割图，而是用样条（spline）来表示边界，再通过隐式方式建模几何结构。
Retinal INR：面向眼底血管分割，结合 ViT 与 INR。INR 用于增强分辨率并保留毛细血管等微细结构，再由自蒸馏机制提取关键特征用于分割。
NeRD：通过位置相关的向量输入建模像素分布参数，缓解常规卷积网络在空间不变性处理中的不足。

图像配准

医学图像配准的目标是把不同时间、不同模态或不同来源的图像对齐到同一坐标系下。传统方法通常需要多步优化和复杂变换假设。

INR 在配准任务中的关键作用，是直接将坐标到形变场的映射表示为一个连续函数。这样可以在任意分辨率下平滑建模变形，而不必依赖离散网格变换。代表性方法有：

IDIR：采用基于 SIREN 的 MLP 建模变换函数 $ϕ(x)=u(x)+x$ 。输入为固定图像中的坐标，输出为形变向量。该方法利用正弦激活的高阶可导性引入更强正则化，在 4D 胸部 CT 配准上表现突出。
mirnf：既可以表示位移场，也可以表示速度场；结合 Neural ODE，可实现可微分同胚配准和非刚性配准。

数据压缩

随着医学影像数据量快速增长，存储、传输和共享成本持续上升。传统图像 / 视频压缩方法对生物医学数据往往不够理想，因为医学影像含有复杂组织结构和高精度局部细节。

INR 在压缩中的思路是：用网络参数本身作为压缩后的表示。代表性方法有：

SCI：先将数据分块，再为每个块训练 MLP，以不同网络参数表示不同频谱范围的数据，提升压缩质量。
TINC：使用树状结构组织多个局部 MLP，使相似区域共享参数，提高表示紧凑性并减少冗余。

神经渲染

神经渲染是指利用神经网络建模场景几何、外观和光照关系，以便生成新视角图像。在医学影像中，这类方法可用于从少量投影恢复更完整的三维信息，或用于手术场景建模。代表性方法有：

MedNeRF：将 NeRF 与 CNN/GAN 思想结合，从单幅或多幅 X 光生成三维感知的 CT 投影。适用于胸部、膝部等场景。
Surgical Neural Rendering：面向机器人手术中的可形变场景，使用规范辐射场与时间相关位移场联合建模手术组织的变形与遮挡，通过可微体渲染实现端到端优化。
SNAF：用于稀疏视角 CBCT，通过学习衰减场并结合体渲染生成高质量图像，但有限投影条件下仍可能带来模糊。

五、结论与展望

论文对不同方法进行了横向比较，得出几个重要观察：

不同任务的输入参数并不相同：虽然很多 INR 以笛卡尔坐标作为输入，但并非所有方法都如此。有的方法输入传感器几何参数，有的方法输入相对方位距离，有的方法还加入时间变量、潜变量或视角方向。
CNN 仍然重要：虽然 INR 是核心，但很多方法并没有完全抛弃 CNN。相反，CNN 常被用于提取局部语义信息，再与 INR 的连续建模能力结合。特别是在超分辨、边界建模和神经渲染中，这种混合策略很常见。
稀疏视角 CT 重建是热点：减少辐射剂量是临床中的重要目标，因此大量研究聚焦于稀疏角度 CT / CBCT 重建。INR 在这一方向受到高度关注，是因为它能在少量投影下更好地重建连续结构。
SIREN 与 NeRF 两类网络各有适用场景：SIREN 类更适合需要高阶导数、光滑变换和强正则化的任务，如配准；NeRF 类更适合视图合成、体渲染和三维连续场重建，如医学神经渲染。

INR 虽然前景广阔，但距离大规模临床落地仍有明显障碍：

计算复杂度和训练时间高
难以扩展到更复杂信号
视频与动态场景 INR 仍具挑战
仍需更多临床验证

六、笔者思考

论文发表于2023年7月。