一、摘要
In March 2020, Neural Radiance Field (NeRF) revolutionized Computer Vision, allowing for implicit, neural network-based scene representation and novel view syn thesis. NeRF models have found diverse applications in robotics, urban mapping, autonomous navigation, virtual re ality/augmented reality, and more. In August 2023, Gaussian Splatting, a direct competitor to the NeRF-based volume ren dering frameworks, was proposed. Gaussian Splatting gained tremendous momentum, overtaking NeRF-based methods as the dominant framework for novel view synthesis. We present a comprehensive survey of NeRF papers from the past five years (2020-2025). These include papers from the pre-Gaussian Splatting era, where NeRF and neural field rendering dominated the field of novel view synthesis and applications thereof. We also include works from the post Gaussian Splatting era, where NeRF and implicit/hybrid neural fields found more niche applications. Our survey is organized into architecture and application based taxonomies in the pre-Gaussian Splatting era, as well as acategorization of active research areas forNeRF,neuralfield, andimplicit/hybridneuralrepresentationmethods. Inthepost Gaussian Splatting era, we focus on relevant developments and applications. We provide an introduction to the theory of NeRF and its training via differentiable volume rendering. Wealso present a benchmark comparison of the performance and speed of classical NeRF, implicit and hybrid neural representation, and neural field models, and an overview of key datasets.
自 2020 年 3 月神经辐射场(Neural Radiance Field, NeRF)提出以来,基于隐式神经网络的场景表示与新视角合成在计算机视觉领域引发了重要变革。NeRF 及其后续方法通过可微体渲染实现高质量的新视角合成,已广泛应用于机器人、城市建图、自动驾驶、虚拟现实/增强现实等场景。2023 年 8 月提出的高斯泼溅(Gaussian Splatting)作为基于体渲染框架的直接竞争者,凭借更高的渲染效率和重建质量迅速发展,逐渐成为新视角合成的主流技术路线。本文围绕 2020–2025 年间的 NeRF 及相关工作开展系统综述,涵盖高斯泼溅提出之前以 NeRF 与神经场渲染为主导的新视角合成方法及其应用,以及高斯泼溅提出之后 NeRF 与隐式/混合神经场在更具针对性的细分任务中的发展。在综述部分,本文从网络结构与应用场景两个维度对 NeRF 相关方法进行分类与梳理,并进一步归纳 NeRF、神经场及隐式/混合神经表示方法的主要研究方向和技术演进脉络。此外,本文介绍了 NeRF 的基本理论框架及其基于可微体渲染的训练机制,给出了经典 NeRF、隐式与混合神经表示以及神经场模型在性能和速度方面的对比基准,并总结了关键公开数据集及其使用特点。本文旨在为后续新视角合成与三维场景表示研究提供系统参考,并为相关应用与拓展工作提供技术综述与实践指引。
二、背景与理论基础
理论
NeRF 由 Mildenhall 等人于 2020 年提出,最初用于新视角合成。其核心思想是:使用神经网络近似一个辐射场(radiance field) ,该辐射场为场景中任意空间点、任意观察方向输出颜色与体密度。其形式可表示为:
其中:
- 表示空间坐标;
- 表示观察方向;
- 表示颜色;
- 表示体密度。
这一 5 维函数通常由一个或多个多层感知机(MLP)逼近。实际实现中,方向通常也可由三维单位向量 表示。
为了保证多视图一致性,NeRF 通常要求体密度 σ 仅依赖空间位置,而颜色 c 则可以同时依赖空间位置与观察方向。原始 NeRF 中,MLP 被设计为两阶段结构:
- 第一阶段输入空间位置 x,输出体密度 σ 及一个高维特征向量;
- 第二阶段将该特征向量与观察方向 d 拼接,再通过额外 MLP 输出颜色 c。
从整体流程看,训练完成后的 NeRF 可通过以下步骤实现新视图渲染:
- 对待合成图像中的每个像素发射相机光线;
- 在光线上采样多个空间点;
- 使用 NeRF MLP 预测每个采样点的局部颜色与体密度;
- 通过体渲染将这些颜色与密度沿光线积分,得到最终像素颜色。
对于一条从相机中心出发、方向为 d 的光线 其像素颜色可由体渲染积分表示为:
其中, 为累计透射率,表示光线从近端 传播到位置 而未被遮挡的概率:
在实际实现中,该积分通常通过数值离散近似完成。原始 NeRF 使用的是分层分桶后的分层采样(stratified sampling) :将光线划分为 N 个区间,并在每个区间中随机采样一点。于是,颜色积分可近似写为离散加权和:
其中:
- 和 为第 i 个采样点的颜色与密度;
- 为相邻采样点间距;
- ;
- 表示累积透射率。
训练时,一般采用像素级平方误差作为光度损失:
其中 是真实图像中对应像素的颜色。
除颜色外,还可以估计该光线的期望深度:
该深度估计常被用于深度正则化,例如约束密度在真实表面附近集中,或促进深度平滑;引入深度监督后,模型通常能更快收敛,并在较少视角输入时学习到更稳定的几何。
为提高细节表达能力,NeRF 通常采用位置编码(positional encoding) 。Mildenhall 等人发现,对输入坐标与方向做多频正余弦映射后,网络更容易拟合高频细节。其编码形式为:
原始论文中,对空间坐标使用 ,对方向使用 。此后研究者又提出了可学习参数化编码、积分位置编码以及分层编码等多种改进形式。在基础 NeRF 中,颜色场与密度场共同构成所谓的神经辐射场。
数据集
小尺度/建筑尺度常用数据集
- NeRF Synthetic 数据集
- Mip-NeRF 360 数据集
- LLFF 数据集
- DTU 数据集
- ScanNet 数据集
- ShapeNet 数据集
- Tanks and Temples 数据集
- Matterport3D 数据集
- Replica 数据集
- Deep Blending 数据集
大尺度城市场景数据集
- KITTI / KITTI-360
- Waymo Open Dataset
- BungeeNeRF 数据集
人体头像/人脸数据集
- Nerfies / HyperNeRF 数据集
- ZJU-MoCap LightStage
- NeuMan
- CMU Panoptic
质量评价指标
- PSNR :峰值信噪比(Peak Signal-to-Noise Ratio)是最常见的全参考指标之一,基于像素均方误差计算,反映重建图像与真值图像的整体误差水平。数值越高,表示重建质量越好。
- SSIM :结构相似性指标(Structural Similarity Index Measure)从亮度、对比度与结构三个层面衡量图像相似性。相比单纯像素误差,它更能反映人眼感知上的相似程度。
- LPIPS :学习型感知图像块相似度(Learned Perceptual Image Patch Similarity)基于深层卷积特征来衡量感知差异。数值越低,说明生成图像在感知层面更接近真实图像。
三、高斯泼溅之前的 NeRF 分类
本节从方法分类角度,对高斯泼溅出现之前的重要 NeRF 与相邻方法进行梳理。作者将其划分为若干主线:
- 提升图像质量与几何质量
- 加速训练与推理
- 稀疏视图学习
- 生成式与条件式建模
- 场景组合与动态场景
- 位姿估计
- 邻近的显式/混合表示与快速体渲染方法
提升合成图像质量与几何质量
更好的视图合成
Mip-NeRF(2021) :核心思想是原始 NeRF 沿光线进行点采样,而 Mip-NeRF 则用圆锥追踪(cone tracing) 近似像素覆盖区域,从而更自然地建模多尺度信息,并自动实现抗锯齿。为此,作者提出了积分位置编码(Integrated Positional Encoding, IPE) 。这一设计使模型在不同分辨率下都更稳定,特别是在低分辨率合成时明显优于基础 NeRF。
Mip-NeRF 360(2021) :这是 Mip-NeRF 在无界场景上的重要扩展。其主要改进包括:引入由主 NeRF 监督的 proposal MLP,用于预测密度并指导采样区间;设计适用于无界场景的新型场景参数化;引入正则项以减少漂浮伪影和背景塌缩。该方法成为后续大场景 NeRF 的重要基础。
Ref-NeRF(2021) :Ref-NeRF 针对反射表面建模效果差的问题进行改进。它不再直接基于观察方向建模辐射,而是围绕反射方向与法向信息组织颜色表示。网络除了输出密度外,还会预测漫反射颜色、镜面反射颜色、粗糙度和表面法向等属性。因此,Ref-NeRF 对镜面高光、金属与玻璃等反射性材质的表现显著优于以往方法。
RapNeRF(2022) :RapNeRF 主要面向视图外推(view extrapolation) ,而非普通的视图插值。作者提出了随机射线投射(Random Ray Casting) :从已知表面点向新方向生成辅助光线;射线图谱(Ray Atlas) :利用粗糙三维网格组织训练射线方向。这些增强策略可以改善模型对未见视角的泛化能力。
深度监督与点云监督
DS-NeRF(2021) :DS-NeRF 在普通颜色监督之外,引入由 COLMAP 稀疏点云提供的深度监督。
作者将深度视为带噪声的高斯分布,并利用 KL 散度约束光线上的深度分布与该噪声深度分布一致。
该方法在少视图训练条件下尤其有效。
Roessle 等(2021) :该工作同样利用 COLMAP 点云,并通过深度补全网络预测深度及不确定性,再联合体渲染损失进行优化。
NerfingMVS(2021) :该方法更强调深度重建。作者先从 COLMAP 提取稀疏深度,再结合单目深度网络获得深度先验,并在体渲染采样时用这些深度先验限制采样位置,从而提高几何学习效率。
PointNeRF(2022) :PointNeRF 使用特征点云作为中间表示。先通过预训练 3D CNN 和代价体生成稠密点云,再将 2D 图像特征映射到这些点上;最后通过类似 PointNet 的网络预测局部颜色和密度。由于可以跳过空区域,它的渲染速度也优于基础 NeRF。
其他几何改进
SNeS(2022) :通过对部分对称物体引入软对称约束,改善隐藏区域和对称结构的几何恢复。
S³-NeRF(2022) :利用阴影与明暗线索推断场景几何,甚至支持单张图像训练 NeRF。其表示方式更接近 occupancy field,而不是标准体密度表示,在几何恢复方面表现突出。
提升训练与推理速度
Bake 类方法
SNeRG :将预计算的颜色、密度与特征存储到稀疏体素网格中,再用一个小 MLP 预测镜面部分。
渲染速度比原始 NeRF 快数千倍。
PlenOctree :先训练输出球谐系数的 NeRF,再将这些系数构造成八叉树。它是后续许多快速显式渲染方法的重要先驱之一,高斯泼溅中球谐颜色表达也与其一脉相承。
FastNeRF :将颜色函数分解为位置相关与方向相关两个部分,从而便于缓存与快速查询。渲染可比基础 NeRF 快数千倍。
KiloNeRF :把场景划分为许多小区域,每个区域训练一个小型 MLP,并通过知识蒸馏从大模型迁移知识。
结合空区域跳过和早停策略后,速度大幅提升。
非 Bake 类方法
JaxNeRF :JAX 版本的 NeRF 实现,工程层面更高效,常作为速度基线。
NSVF :使用稀疏体素包围多个局部辐射场,避免对整个空间做密集采样。这是早期非常重要的混合表示方法。
AutoInt :通过近似积分过程减少采样点数量,从而提升速度。
Recursive-NeRF :采用动态分支与早退出机制,根据局部复杂度自适应分配计算量。
Light Field Networks :直接从光线映射到颜色,在 4D 光场空间中表达场景,绕开标准体渲染流程。优点是实时渲染能力强,但多视图一致性较弱。
DIVeR :对光线穿过体素区间进行确定性积分,先对区间聚合特征,再由 MLP 解码颜色和密度,改变了 NeRF 中“先采样、后解码”的传统顺序。
Instant-NGP(2022) :这是 NeRF 加速史上的里程碑方法之一。作者提出多分辨率哈希编码(multi-resolution hash encoding) ,并配合高效射线步进、空区域跳过与高度优化的 MLP 实现,使 NeRF 训练从“数小时”压缩到“数秒到数分钟”量级。该方法对后续几乎所有快速神经场方法都有深远影响。
稀疏视图学习
原始 NeRF 强依赖密集且多样的多视图图像,若输入视角太少或变化不足,就容易过拟合并产生错误几何。因此,一大类工作尝试借助预训练特征、深度先验或正则化来解决稀疏视图问题。
pixelNeRF :利用预训练 CNN 从输入图像中提取特征,并将三维查询点投影到图像平面获取对应特征,再将这些特征与点坐标、观察方向一同输入 NeRF MLP。
其优势在于具备较强的跨场景泛化能力。
MVSNeRF :先通过多视图立体估计构建三维代价体,再提取体特征供 NeRF 使用。
在 DTU 上,它能在十几分钟内达到接近长时间训练 NeRF 的效果。
DietNeRF :引入基于 CLIP 特征的语义一致性损失,鼓励生成图像与输入图像在语义空间保持一致。
这样即使视图很少,也能借助预训练视觉语义先验约束 NeRF 学到更合理的场景。
NeuRay :使用代价体与可见性估计,将多视图信息更明确地融合到辐射场建模中。
GeoNeRF :结合 2D 图像特征、3D 代价体与 Transformer,对沿光线的多个查询点进行联合建模,在稀疏视图设置下表现强劲。
RegNeRF :与大量依赖预训练先验的方法不同,RegNeRF 更强调训练过程中的正则化。它引入了深度平滑正则;颜色统计先验;采样空间退火策略。在少视图条件下,RegNeRF 不依赖大规模预训练,也能达到与部分预训练方法相近甚至更优的效果。
NeRFusion / AutoRF / SinNeRF / GeoAug :这些方法从代价体、多目标建模、对抗训练、数据增强等角度继续推进少视图学习,使 NeRF 在更极端输入条件下也能工作。
生成式与条件式建模
基于GAN的方法
GRAF :最早将 GAN 用于 NeRF 的代表性工作。
它将形状潜变量和外观潜变量分别注入 NeRF,用对抗训练生成三维一致的图像。
π-GAN :用 SIREN 网络替换普通 MLP,提高细节建模能力,在人脸等数据集上优于早期方法。
EG3D :提出非常有影响力的三平面(tri-plane)混合表示,结合 StyleGAN2 进行高质量 3D 感知人脸生成。它是后续 3D GAN 与 3D-aware generation 方向的代表作之一。
StyleNeRF :把 NeRF 融入 StyleGAN 框架,使传统 2D 风格生成具备 3D 一致性。
Pix2NeRF :在 π-GAN 的基础上进一步引入编码器和重建约束,提升潜空间可控性与一致性。
联合优化潜变量的方法
Edit-NeRF :通过对形状与外观潜变量联合优化,实现用户可控的三维编辑。
CLIP-NeRF :利用 CLIP 将用户输入的文本或图像映射为潜空间位移,从而直接驱动 NeRF 编辑。
与 Edit-NeRF 相比,它避免了每次编辑都重新优化潜变量,效率更高。
基于扩散模型的方法
DreamFusion :这是 text-to-3D 方向的开创性工作之一。它使用 2D 文本到图像扩散模型生成监督信号,再从零开始训练一个 NeRF,使之对应于文本描述的三维对象。尽管生成质量令人印象深刻,但受限于当时 2D 扩散图像分辨率较低,精细结构仍有限。
Latent-NeRF :把 NeRF 输出到潜空间,再交给 Stable Diffusion 解码,提升分辨率与控制能力。
Magic3D :采用两阶段粗到细优化,先用快速神经场得到粗几何,再在网格层面做更高分辨率细化。它显著改善了 DreamFusion 的细节问题。
RealFusion / SSDNeRF :进一步将扩散模型引入单图重建、稀疏视图学习与可泛化 3D 生成。
场景组合与动态场景
NeRF-W :面向“野外场景”照片集合,处理不同图像间的曝光、光照变化与瞬时物体(如行人、车辆)。
其关键做法是:保持密度场共享,同时用每张图像的 appearance embedding 建模外观变化,再用 transient embedding 建模临时出现的动态物体。
NeRF++ :通过球内/球外分解解决无界场景建模问题,是早期户外 NeRF 的重要基础。
GIRAFFE :把不同对象用不同神经场表示,再组合成场景,适合可控场景生成。
Object-NeRF / Fig-NeRF :引入对象级建模与实例编辑能力,可对场景内对象进行分离、插值和操作。
NeRFReN :针对反射场景,把辐射场拆成透射与反射两部分,改善玻璃等强反射表面的重建与编辑。
D-NeRF :通过引入时间维度和变形网络,将动态场景映射到一个规范空间中,再进行辐射场建模。这是动态 NeRF 的经典起点。
HyperNeRF :在 D-NeRF 基础上进一步引入高维规范空间与切片机制,能够处理嘴巴开合、剥香蕉等拓扑变化场景。
HexPlane / K-Planes :使用跨时空多个二维特征平面表示 4D 场景,在压缩表示与提速方面很有代表性。
RoDynRF / MAV3D / NeRF-DS :这些方法继续推进无位姿动态重建、文本驱动动态 3D 生成,以及带镜面反射的动态对象建模。
位姿估计
iNeRF :把位姿恢复看作“逆渲染”问题:在 NeRF 已知的情况下,反过来优化相机位姿。
NeRF-- / BARF :在训练 NeRF 的同时联合优化相机位姿,相当于把 SfM 与 NeRF 学习结合起来。
其中 BARF 的 coarse-to-fine 注册思路影响很大。
SCNeRF :不仅能估计外参,也能联合优化内参与复杂相机模型(如鱼眼)。
GNeRF / GARF :分别从生成式潜变量与高斯激活函数等角度改进位姿恢复。
iMAP :第一个较系统的 NeRF-SLAM 工作,将跟踪与建图统一到一个神经隐式框架中。
NICE-SLAM :在 iMAP 基础上引入层次网格表示,几何恢复更稳定,对大场景更友好。
NeRF-SLAM :结合 Instant-NGP 与成熟 SLAM 管线,显著提升效率与精度。
Vox-Fusion / NICER-SLAM :进一步用体素、SDF 与 RGB-only 约束提升在线建图能力。
邻近方法:显式表示与快速体渲染
Plenoxels :直接在体素网格上优化密度与球谐系数,几乎完全移除了 MLP。它证明了:NeRF 成功的关键不一定在于“用神经网络存储场景”,而更在于体渲染机制本身。
TensoRF :将场景表示分解为低秩张量,大幅降低显存与存储需求,是显式/混合表示方向中的代表作。
Streaming Radiance Fields / Dictionary Fields :分别从视频流场景压缩与可共享基底表示角度推进显式神经场。
IBRNet :结合基于图像的渲染思想与 Transformer,对多视图特征进行融合,是 NeRF 邻近的重要方法。
SRT / NeRFormer :用 Transformer 替代或增强标准的逐点辐射场建模流程,体现了从 MLP 神经场向更强全局建模器迁移的趋势。
四、高斯泼溅之前 NeRF 的应用
城市建模
面向城市尺度的 NeRF 需要解决:无界背景;大场景;稀疏相机路径;动态干扰物;多模态辅助(如 LiDAR)。
Urban Radiance Fields :将 LiDAR 深度损失、视线损失和天空分割损失引入 NeRF,面向自动驾驶城市场景建模。
Mega-NeRF :将超大场景划分为多个局部单元,各自训练 NeRF,再进行组合,适合航拍城市级重建。
Block-NeRF :以道路级别超大规模数据为目标,通过场景分块、外观嵌入、语义遮罩和块级融合实现街景尺度建模。
图像处理
RawNeRF :在原始 RAW 线性空间中训练,用于 HDR 合成与低光照去噪,对夜景和高动态范围场景尤其有效。
HDR-NeRF :通过多曝光 LDR 图像学习 HDR 辐射场。
DeblurNeRF / BAD-NeRF :把运动模糊建模融入体渲染过程,实现去模糊。
NeRF-SR / Super-NeRF / ZS-SRT :利用 NeRF 的 3D 一致性进行超分辨率建模,或结合外部生成先验补充高频细节。
NaN :面向复杂噪声和运动条件下的 burst denoising。
Semantic-NeRF :在标准颜色与密度之外,再增加一个语义分支,从而可以对新视角图像同时生成语义标签。
Panoptic NeRF / Panoptic Neural Fields :面向城市驾驶场景,支持语义标签传播、实例分割与对象级编辑。
CLIP 特征蒸馏类方法 :通过将 2D 基础模型的特征蒸馏到 3D 辐射场中,使 NeRF 获得开放词汇语义理解能力。这一路线与后来的 3DGS 语义方向高度相关。
表面重建
标准 NeRF 的几何是“隐含”在密度场中的,不易直接提取显式表面。因此,一些工作用 occupancy field 或 signed distance field(SDF)替代体密度表示,以获得更清晰的几何。
UNISURF :使用 occupancy 替代密度,直接围绕显式表面建模。
NeuS :使用 SDF 场来定义几何,并通过专门设计的密度变换把 SDF 融入体渲染。这是神经隐式表面重建方向的重要代表作。
Geo-NeuS / HF-NeuS / SparseNeuS :分别从多视图几何约束、高频细节增强和稀疏视图建模角度改进 NeuS
人脸、人体与可动画对象
Nerfies :通过变形场处理非刚体变化,是动态人脸 NeRF 的奠基性工作之一。
HyperNeRF :进一步支持拓扑变化,如张嘴、闭眼等。
Neural Body :将人体骨架模型与神经辐射场结合,实现动态人体重建,是人体 NeRF 的代表作。
RigNeRF / CoNeRF :强调可控人脸编辑,例如通过滑块调节表情。
A-NeRF / Animatable NeRF / HumanNeRF / TAVA / X-Avatar :这些方法都围绕“骨架先验 + 神经场变形”的路线不断推进,使可动画人体更加真实、稳定。
五、高斯泼溅之后的神经渲染与 NeRF
详细介绍一下这一部分和涉及到的方法。
基于隐式/混合神经场表示的可微体渲染改进
NeuRBF(2023 年 9 月)提出了一种混合神经场模型,通过将自适应径向基函数与基于网格的径向基插值结合起来,提高了表示精度与紧凑性。该方法可被视为对早期特征网格型神经场的推广,并通过多频率正弦组合扩展单个基函数所能编码的频谱范围。随后,这些特征通过 MLP 解码,用于体渲染,并具备有符号距离场重建能力。实验表明,NeuRBF 在二维图像拟合、三维有符号距离场重建以及神经辐射场合成等任务上均取得了较强表现。
PIE-NeRF(2023 年 11 月)将基于物理的弹性动力学仿真与神经辐射场表示相结合,提出了一条新颖的建模路径。不同于将学习到的隐式表面再转换为网格或体素网格,该方法直接在神经辐射场的密度场之上采用无网格离散化方式,即基于二次广义移动最小二乘构造连续介质模拟框架。这样一来,模型可以直接在隐式表示上支持大形变和非线性超弹性材料模拟,从而实现对复杂几何真实场景的交互式操控。
FastSR-NeRF(2023 年 12 月)在神经辐射场流程中引入了一个轻量级的超分辨率卷积神经网络。其基本思路是先训练一个小型且高效的神经辐射场模型,生成低分辨率但三维一致的特征,再借助快速超分模型对这些特征进行上采样,由此显著降低体渲染的计算成本。相较于此前依赖复杂训练策略、蒸馏过程或高分辨率参考图像的 NeRF+SR 方法,FastSR-NeRF 无需对主干结构做大幅修改,也不依赖重型算力;其提出的“随机图块采样”增强策略能有效提升超分辨率阶段的图块多样性,因此特别适合消费级硬件环境。
VDGS(Viewing Direction Gaussian Splatting,2023 年 12 月)是一种混合框架,试图结合高斯泼溅的快速渲染优势与神经辐射场对视角相关效应的建模能力。该方法以三维高斯泼溅表示场景几何,同时采用类似神经辐射场的方式编码颜色与不透明度,因此既保留了高斯泼溅的实时推理性能,又在一定程度上缓解了视角相关伪影问题。
MulFAGrid(2024 年 5 月)是一种通用型网格神经场模型,通过将乘性滤波器与傅里叶特征结合,在新的 Grid Tangent Kernel 理论指导下,强调高频区域中的谱效率与泛化能力。与 Instant-NGP、NeuRBF 等方法相比,其在规则与非规则网格上都展现出较好的适应性。该方法通过对网格特征与核特征进行联合优化,在二维图像拟合、三维有符号距离场重建以及新视角合成等任务上均取得了很强的结果。尽管其速度不及实时级的三维高斯泼溅渲染器,但作为一种灵活而稳健的神经场表示方式,仍然具有较高应用价值。
NU-NeRF(2024 年 11 月)针对多层嵌套透明物体的重建提出了专门方法。该模型通过两阶段流程工作:第一阶段将表面颜色分解为反射与折射成分,并以神经有符号距离场结合折射 MLP 的形式拟合外层表面;第二阶段则通过显式光线追踪穿过外层透明界面,再借助另一套基于有符号距离场的透明接口模型恢复内部表面。该方法使得在更真实的多视图采集条件下,嵌套透明物体的几何与外观重建成为可能。
VD-NeRF(2025 年 1 月)提出了一种将视角无关外观与视角相关效应显式解耦的神经辐射场架构。其目标是将反照率与漫反射照明等视角无关成分,与高光、反射等视角相关成分分开建模,同时进一步显式估计可见性与阴影,以支持更稳定的一致性编辑和高频重光照。其关键设计包括:以可见性感知掩码引导静态与动态光照成分的分离;采用双分支网络分别建模基础外观与视角相关残差;并通过解耦后的成分构建重光照管线,从而支持在新光照方向下进行场景重照明。
三维场景表示的新进展
三维场景理解、语义与动态建模
GP-NeRF(2023 年 11 月)构建了一个将神经辐射场与二维语义分割模块统一起来的框架,以实现具备上下文感知能力的三维场景理解。不同于将语义标签与辐射场独立处理的既有方法,GP-NeRF 通过场聚合 Transformer 与射线聚合 Transformer 联合学习辐射场与语义嵌入场,因此能够在新视角下同时完成外观渲染与语义渲染。
FRNeRF(2024 年 3 月)面向单目动态时空视角合成问题,在 NSFF 风格动态神经辐射场的基础上,引入一个 2D–3D 融合正则场。该设计通过把不依赖深度的二维特征流与三维场景流耦合起来,缓解快速运动下常见的像素错位和深度诱导伪影问题。同时,方法还将掩码自编码器提取的图像先验特征注入分层采样过程,为动态区域中观测不足的像素提供更丰富监督,从而提升运动区域的清晰度。此外,它还采用基于 ViT 的全局对齐损失,在语义层面进一步稳定训练过程。
DP-RECON(2025 年 3 月)提出了一种分解式三维重建方法,将生成式扩散先验与神经隐式表示相结合。给定带位姿的多视图图像,该方法可分别重建前景物体与背景,并通过预训练 Stable Diffusion 模型所提供的 Score Distillation Sampling 信号共同优化几何与外观。为缓解生成先验与观测数据之间的冲突,作者设计了一种新的可见性引导优化机制:通过基于体透射率构建的可微网格学习像素级可见图,并以此调制每个像素上的 SDS 损失与重建损失。实验显示,该方法在遮挡区域尤其能够产生更高保真的结果,而且在输入视图数量显著减少时依然优于基线方法。同时,它还支持细粒度的场景编辑、风格化以及带 UV 映射的分解式网格输出。
面向神经辐射场及邻近神经渲染方法的语言对齐与语义 grounding
尽管 LERF(Language Embedded Radiance Fields,2023 年 5 月)并不严格属于高斯泼溅之后提出的方法,但由于其对后续“语言 grounding 与三维神经场结合”方向影响深远,因此在此一并讨论。LERF 的核心思想是将 CLIP 特征直接嵌入三维辐射场,从而使自然语言理解能力进入神经辐射场内部。该方法通过训练视图构建多尺度特征金字塔,为三维空间中的每个位置关联具有尺度感知能力的语言语义;同时,又引入自监督的 DINO 特征并通过共享瓶颈层提升语义稳定性与结构一致性。最终,LERF 能够针对自然语言查询输出三维一致的相关性热图,相比于先在二维图像中做开放词汇检测再投影到三维的方案更具优势。因此,该方法支持实时、具语义感知能力的三维交互,在机器人、场景理解与视觉—语言对齐任务中都具有重要意义。图中展示了其对不同文本提示生成的视觉语言相似度热图效果。
OV-NeRF(2024 年 2 月)面向开放词汇三维语义分割任务。该方法通过区域语义排序机制利用 SAM 提供的区域级先验,提升单视图语义边界质量;同时,又设计了跨视图自增强机制,借助神经辐射场天然具备的三维一致性来修正不同视角下的相关性图,并生成新的语义视图作为附加监督。通过这两种策略,OV-NeRF 有效降低了 CLIP 语义歧义,并增强了多视图语义一致性。在 Replica 与 ScanNet 等数据集上的结果表明,其 mIoU 明显优于既有方法。
HNR(Hierarchical Neural Radiance,2024 年 4 月)将神经辐射场用于视觉—语言导航中的未来环境预测。该方法基于 CLIP 对齐的视觉语言嵌入,在三维感知条件下预测未来候选路径上的多层级语义特征,并将其编码为层次化特征云,再通过体渲染推断未观测或被遮挡区域的语义上下文。与传统二维生成方法相比,这种层次化的编码方式显著增强了空间理解与未来环境预测的鲁棒性。进一步地,该模型被嵌入一个前瞻式视觉—语言导航框架中,配合跨模态图编码 Transformer 实现基于语言指令的路径规划。
LLaNA(Large Language and NeRF Assistant,2024 年 6 月)尝试在大语言模型与神经辐射场之间建立直接接口。它不是通过渲染图像或提取显式几何来与语言模型对接,而是将神经辐射场 MLP 的权重编码到预训练语言模型的潜在空间中,以最大限度保留原始辐射场表示。作者还构建了一个基于 ShapeNet 的 NeRF-语言数据集,用于围绕神经辐射场开展问答任务。其后续工作 Scaling-LLaNA(2025 年 4 月)进一步扩展了大规模 NeRF-语言数据集,并系统分析了语言模型规模对该任务的影响。
扩散模型与神经场
用于三维生成与编辑的扩散模型
Shum 等人(2023 年 9 月)提出了一种将文本到图像扩散模型与神经辐射场结合的语言驱动三维场景编辑方法。该方法支持在场景中进行目标插入与删除:系统根据文本提示生成同时包含目标物体与背景的多视图图像,再通过姿态条件化的数据集更新策略迭代优化神经辐射场,以逐步整合新视图并维持跨视图一致性。与依赖显式几何、深度或掩码的编辑方法相比,该方法仅需用户提供粗略的三维包围盒信息,便能实现质量较高且多视角一致的场景编辑。
ReconFusion(2023 年 12 月)利用二维扩散先验来提升神经辐射场的训练质量,尤其适用于稀疏视角输入场景。作者从预训练潜空间扩散模型出发,微调一个多视图条件扩散模型,使其在真实与合成数据上学习生成新视图。该扩散模型随后以类似 score distillation 的方式作为正则器嵌入 NeRF 训练环节。实验表明,该方法能有效缓解密集采样场景中的浮游伪影与雾化问题,也能在输入视图较少时恢复更合理的场景几何,从而为稳健的神经辐射场优化提供通用先验。
Comps4D(2024 年 3 月)提出了一种面向组合式四维场景生成的框架,即能够生成带运动的三维场景。不同于以往以单对象为中心的方法,Comps4D 将任务分解为两个阶段:一是构建静态三维资产,二是基于大语言模型生成运动。静态对象由神经辐射场表示,语言模型负责规划全局轨迹,而局部形变则通过可变形三维高斯表示进行学习。该设计使系统能够在存在遮挡的情况下仍然稳定学习运动,并通过组合式 score distillation 优化对象动态。实验结果显示,其在视觉质量、运动真实性与对象交互连贯性方面都优于已有方法。
LN3Diff(2024 年 3 月)提出了一个位于潜空间中的三维扩散生成框架,用于条件三维生成。其流程首先通过变分自编码器将输入图像映射到紧凑且具备三维感知能力的潜在空间,再经由基于 Transformer 的解码器恢复为 tri-plane 表示。模型训练过程中结合了可微渲染、多视图监督或对抗监督,因此即使每个场景只有两张视图,也能够有效学习。卷积式 tokenizer 与 Transformer 层共同对三维 token 进行结构化注意力建模,从而促进几何一致性。该潜在表示支持快速摊销式推理,并可扩展到大规模扩散学习任务。在 ShapeNet、FFHQ、Objaverse 等数据集上的实验表明,LN3Diff 在三维重建和三维生成方面均优于已有 GAN 与扩散基线,同时推理速度最多可提高约 3 倍。
扩散模型辅助图像处理
Inpaint4DNeRF(2023 年 12 月)提出了一种基于扩散模型的文本引导神经辐射场修补方法,并自然扩展到四维动态场景。用户给定前景掩码和文本提示后,方法首先对若干种子视图执行基于 Stable Diffusion 的修补,再由这些视图估计场景的粗几何,最后利用由种子图像及其几何提供的引导信息,对剩余视图进行扩散式修补,从而保证多视图一致性。
DiSR-NeRF(2024 年 4 月)关注仅由低分辨率多视图图像训练高分辨率一致神经辐射场的问题。由于 NeRF 训练通常受计算成本限制,使用低分辨率图像较为常见;但若简单在二维层面做超分辨率,往往会造成不同视图间细节不一致。为解决这一问题,DiSR-NeRF 提出了两个关键组件。其一是 Iterative 3D Synchronization(I3DS) ,通过在二维扩散超分与神经辐射场训练之间交替迭代,逐步在三维空间中对齐细节;其二是 Renoised Score Distillation(RSD) ,通过在中间去噪潜变量上进行优化,提升最终结果的清晰度和跨视图一致性。该方法无需高分辨率训练数据,便能优于已有方案,生成高保真、超分辨率后的神经辐射场。
MVIP-NeRF(2024 年 5 月)提出了一种基于扩散模型的多视图一致神经辐射场修补方法。传统做法往往独立对每个二维视图进行修补,容易导致跨视图不一致和几何失真;而 MVIP-NeRF 通过在多视图上联合优化,显式保证视图之间的一致性。它利用带文本条件的扩散模型执行 Score Distillation Sampling,对掩码区域进行引导式修补,同时在可见区域施加 RGB 重建约束。为进一步增强几何一致性,该方法还蒸馏法线图,并设计了新的多视图 SDS 形式,以提升大视角变化下的稳定性。实验表明,MVIP-NeRF 在 NeRF 修补任务上达到了当时的先进水平。
Neural Gaffer(2024 年 6 月)提出了一个基于二维扩散模型的单视图重光照框架,且不受具体类别限制。与只能处理有限物体类别的既有方法不同,它可在任意类别与任意 HDR 环境光条件下实现单图像重光照。该模型在具有基于物理材质与 HDR 光照的合成数据集上进行训练,学习到了丰富的光照先验,因此能够从单张图像中恢复逼真且高质量的重照明结果。除二维图像编辑外,它还可以与神经辐射场结合,拓展至三维场景重光照任务。
基于隐式与混合神经场的 SLAM
CP-SLAM(2023 年 11 月)是一个基于神经点表示的多智能体协同 SLAM 系统,并支持单个智能体内的回环闭合。该方法受 Point-NeRF 启发,为关键帧关联的神经点设计了便于在位姿图优化中调整的特征表示。为实现跨智能体的一致性,系统采用“两阶段分布式到集中式训练”方案:先分别训练各智能体的解码器,再将其融合并联合微调。由此,里程计、回环检测、子图融合与全局优化被整合进统一框架。
SNI-SLAM(2023 年 11 月)是一种稠密 RGB-D 神经辐射场语义 SLAM 系统,重点解决语义 SLAM 中两个关键问题:其一,外观、几何与语义三者之间高度耦合;其二,多视图条件下外观优化与语义优化常常彼此不一致。为此,该方法引入层次化语义编码与交叉注意机制,使多个模态之间能够相互促进;同时采用单向解码器结构,以加强跨模态信息流动,同时避免反向干扰。
DNS-SLAM(2023 年 11 月)是一个稠密语义感知 SLAM 框架,建立在按类别分解场景的思想之上,并引入基于点的混合神经场映射模块。该方法构造了多类别神经场景表示,使对象类别与相机位姿估计之间建立更直接联系;同时借助二维语义先验与多视图图像特征,通过反投影几何约束增强位姿估计。作者还训练了一个轻量级粗模型以加速跟踪,并通过高斯分布先验监督占据场学习,从而进一步改善几何重建。
Neural Graph Mapping(2023 年 12 月)提出了一种动态多场景域表示方式:场景由一组锚定在位姿图关键帧上的轻量神经场组成,并在回环闭合后随着位姿更新而发生形变。与传统体积地图需要重新整合或依赖固定边界不同,这种方案能够以较低代价维持体积映射的一致性。其对应的 RGB-D SLAM 框架结合了稀疏视觉跟踪的精度与稠密神经映射的表达能力,在多种场景中都展现出较强鲁棒性。
DDN-SLAM(2024 年 1 月)将语义先验与神经辐射场表示结合起来,以区分动态与静态对象。整个系统被拆分为分割、跟踪、建图和回环检测四个线程:分割线程识别并抑制动态区域中的特征;跟踪线程提取特征并通过语义与几何线索筛除动态点,计算静态光流并输出相机位姿与关键帧;建图线程则融合输入稀疏点云以引导 NeRF 射线采样,并利用动态感知掩码进行关键帧选择与体渲染,以保留静态表面几何;回环检测线程负责发现重访区域并执行全局 bundle adjustment,以增强长程一致性。图中展示了其在静态与动态序列上的可视化效果。
PIN-SLAM(2024 年 1 月)提出了一种基于点式隐式神经表示的全局一致 SLAM 系统。它以神经特征点替代规则网格,使表示更具空间灵活性,并能在回环闭合时进行弹性校正。系统在建图与里程计之间交替运行:建图阶段采用显式神经点加隐式 MLP 解码器构成的混合神经 SDF 表示;里程计阶段则通过无对应关系的二阶 scan-to-map 优化实现定位。再加上滑动窗口回放缓冲区与回环触发的位姿图优化及神经点弹性形变,该系统能够在大规模场景中维持一致地图。
KN-SLAM(2024 年 3 月)将局部特征对应关系引入到 NeRF 建图模块,用于提供粗位姿初始化,并联合优化光度损失与特征重投影损失。该方法同时利用全局图像特征与局部匹配进行显式回环检测,并在此基础上执行位姿图优化与神经地图全局细化,以保证整体一致性。
SLAIM(2024 年 4 月)采用由粗到细的跟踪流程,并通过高斯滤波图像信号改进光度 bundle adjustment 的收敛性。与许多变体不同,它仍保留了 NeRF 原有的体密度形式,同时在射线终止分布上增加 KL 正则项。其主要目标是缓解高频渲染结果对图像对齐造成的不利影响。
HERO-SLAM(2024 年 7 月)提出了多尺度图块损失,通过多种 warping 关系联合对齐特征点、地图与 RGB-D 像素。其建图部分采用类似 Instant-NGP 的多分辨率混合特征网格加 MLP 架构来学习神经 SDF。大量实验表明,该方法在标准基准上优于既有隐式场 SLAM 方法,特别是在复杂条件下具有更强鲁棒性。
MNE-SLAM(2025 年 6 月)是首个完全分布式的多智能体神经 SLAM 框架,可在不依赖集中式训练、不交换原始数据的前提下,实现高精度协同建图与稳健相机跟踪。该系统使用 tri-plane 与 MLP 结合的混合神经场表示作为地图模块,并提出从“智能体内回环”到“智能体间回环”的闭合策略,通过点对点特征共享与全局一致性损失减少位姿漂移、对齐不同智能体的子地图。为支持此类研究,作者还构建了 INS 数据集,提供高精度、时间连续的轨迹和三维网格真值。
GPS-SLAM(2025 年 9 月)是一种 RGB-D SLAM 方法,其场景表示分为两个层次:首先使用截断有符号距离场体积作为稳定且高效的几何主干,再在靠近表面的区域附加一层三维高斯元,以建模几何主干难以表达的高频外观残差。渲染时,系统先通过 SDF 光线投射得到深度与基础颜色,再仅对靠近表面的高斯元执行泼溅,并借助 SDF 引导的深度裁剪与无序融合生成残差图像,最后与主干渲染结果融合。这种设计既避免了 NeRF 式体采样的高代价,也绕开了高斯深度排序步骤,因此能够在实时甚至高帧率下保持较高的重建质量。
基于隐式与混合神经场的人体数字人
人脸头像
HQ3D(2023 年 3 月)提出了一种用于生成高逼真人脸数字头像的方法,其核心表示为带多分辨率哈希编码与解码 MLP 的体素化特征网格,即一种混合神经隐式场。该方法在训练阶段利用多视图视频,在测试阶段则仅需单目 RGB 输入,无需网格模板或空间裁剪。作者还设计了一个由视频特征条件化的规范空间,并通过光流损失进行正则,从而获得无伪影、时间连续的人脸重建结果。该方法支持新视角与新表情合成,可在 2K 分辨率下渲染,训练速度较前作提升约 4–5 倍,并达到实时运行。论文还引入了包含 16 个身份的 4K 多视图数据集。
Qin 等人(2023 年 10 月)提出了一种三维头部头像框架,针对以往 NeRF 常采用全局表情编码、难以精细控制面部局部变化的问题,引入空间变化表情表示。不同于将同一表情向量作用于整个三维空间,该方法同时融合空间特征与表情特征,使得面部几何与渲染可在更细粒度上响应表情变化。其生成网络将 3DMM 表情参数与位置相关特征结合,生成空间变化的表情编码;再通过由粗到细的训练策略,逐步改善几何和渲染质量。由此,诸如皱纹、眼球运动等细节可比全局表达方式更逼真地重建。
BakedAvatar(2023 年 11 月)针对普通设备上的实时四维头部头像渲染,提出了一种兼顾逼真性与效率的新表示。相较于传统网格或神经辐射场方法在发丝等精细细节表达不足、或采样成本过高的问题,BakedAvatar 学习一个与头部表面高度贴合的流形,并从中提取分层网格代理,以近似体渲染效果,同时保留快速光栅化的优势。
Bai 等人(2024 年 4 月)提出了一套可实时渲染、且支持细粒度控制的三维神经头像系统。其核心机制是在 3DMM 网格的每个顶点附近绑定局部哈希表,从而获得随表情变化而变化的局部嵌入与局部形变。不同局部 blendshape 通过由驱动信号在 UV 空间中预测的每顶点权重进行组合。系统采用哈希编码与解码 MLP 构成的混合神经隐式场,对三维查询点的颜色与密度进行预测,并通过体渲染生成图像。
LightAvatar(2024 年 9 月)是一种基于神经光场的人头头像模型,其目标是摆脱显式网格与体渲染流程,构建更简洁高效的管线。该方法以一个预训练头像模型作为教师,通过蒸馏方式监督 LightAvatar 学习。为减轻仅使用教师监督带来的性能瓶颈,训练中同时结合伪数据与真实数据;又由于真实数据上的 3DMM 拟合并不完美,作者进一步引入形变场网络校正拟合误差、提升视觉质量。渲染部分先在低分辨率下生成结果,再通过超分模块恢复高清图像。
NeRFFaceShop(2025 年 10 月)通过大规模“野外”视频训练一个具备三维感知能力的生成模型,目标是生成可动画化且可重光照的人头模型。该方法不是直接形变三维点,而是对特征图进行形变,因此在表情变化与光照变化同时存在的情况下,仍能维持较好的时序一致性与光照一致性。其建立在 tri-plane 生成器之上,引入统一的动画—光照表示,并从视频中提取表情系数以学习细致的动画空间,从而实现平滑、可控的人头运动与重光照,且可扩展至非人类对象域。
全身人体
Xu 等人(2023 年 8 月)提出了一种从稀疏视频或单目视频中构建可重光照、可动画化人体数字人的方法。该模型在规范空间中使用 MLP 预测材质属性(如光照可见性、反照率、粗糙度)以及几何属性(如有符号距离场与表面法线),再通过神经形变场将其映射到世界空间。作者还设计了层次化距离查询算法,将世界空间中的 KNN 距离与规范空间中的 SDF 距离加以融合,以便通过 sphere tracing 更准确地计算像素—表面交点。此外,该方法将距离场软阴影计算扩展到形变 SDF 上,使得任意姿态下的人体都能高效生成柔和阴影。
NECA(2024 年 3 月)是一个可定制的人体神经头像框架,支持任意姿态、任意视角和任意光照下的逼真渲染,并可对形状、纹理和阴影进行细粒度编辑。NECA 同时在规范空间和基于表面的 UV 切空间中学习人体表示:前者负责共享结构,后者负责高频且与姿态相关的细节。几何、反照率与阴影分别由独立 MLP 预测,并结合优化后的环境光参数进行渲染。该方法建立在 SMPL 模型之上,通过光度与法线约束进行自监督训练,本质上属于基于属性神经场的人体建模框架。
MeshAvatar(2024 年 7 月)提出了一种面向三角网格人体数字人的混合表示,通过将显式网格几何与神经有符号距离场、材质场结合起来,实现从多视图视频端到端学习。该方法利用可微 marching tetrahedra 连接网格表示与隐式表示,因此既能兼容传统渲染管线,也可利用硬件加速光线追踪。为提升表面重建与重光照效果,作者进一步引入了具阴影感知能力的物理渲染、姿态驱动的二维神经编码器来恢复高频细节,并利用立体估计的法线图进行弱监督。整体上,该设计无需表面跟踪或预设模板,便能获得高质量动态几何与外观。
Huang 等人(2024 年 10 月)提出了一种快速且平滑的动态人体 NeRF 模型,用于从单目视频中恢复可动画化的人体数字人。该方法结合 HuMoR 进行时间一致的姿态估计,借助 Instant-NGP 加速规范空间中的形状学习,并采用 Fast-SNARF 高效地将规范空间表示形变到姿态空间。针对动态场景下传统体渲染效率低的问题,作者提出姿态敏感的空间裁剪与动态占据网格,以在渲染时跳过空区域,从而显著提高重建速度与质量。
六、讨论
神经辐射场与高斯泼溅的比较
神经辐射场与高斯泼溅都属于新视角合成框架,但二者在场景表示与渲染机制上存在根本差异。就表示形式而言,神经辐射场及其邻近神经场渲染方法通常采用隐式表示或混合表示,将三维场景编码为连续神经场;而高斯泼溅则采用显式表示,将场景建模为类似三维点云的高斯元集合。就渲染范式而言,神经辐射场主要依赖类似光线追踪的可微体渲染,在虚拟相机射线上对颜色场与密度场进行采样;高斯泼溅则通过二维投影下的椭球高斯元进行可微光栅化,而非沿射线显式采样颜色值。
总体来看,神经辐射场类方法通常具有更低的显存与存储占用,但训练与推理速度显著慢于高斯泼溅,而且在新视角合成质量上往往略逊一筹;相应地,高斯泼溅在速度与图像质量方面更具优势,但其代价是更高的内存与存储开销。综述中对该领域的总体判断也指出,自 2023 年高斯泼溅提出后,其已在新视角合成方面迅速成为主导范式。
尽管近年来研究重心大幅向高斯泼溅迁移,神经辐射场及神经场方法仍具有若干不可忽视的优势。首先,在技术层面,隐式表示和混合表示相比显式高斯表示更紧凑,更适合需要内存效率或模型压缩的应用。其次,高斯泼溅中的“泼溅式”光栅化虽然速度极高,但体渲染在处理真正具有体积性质的场景元素时更自然,例如雾、尘埃等分布式介质;这些元素在标准高斯泼溅框架中往往容易表现为浮游伪影。再次,神经场本质上定义在连续三维空间上,可以在任意坐标位置进行查询,因此特别适合表示空间连续分布的属性。这一点与显式点云式表示形成鲜明对比,后者若要表达连续物理场,往往需要额外的工程设计。
另一方面,也出现了一类高斯泼溅—神经场混合方法,其目标是结合两者所长:用显式高斯元获得高效、友好的光栅化渲染,用神经场承担更灵活的几何、视角相关外观、时空形变与复杂属性建模。实践中,这类方法通常将高斯元或局部特征点作为场景细粒度基元,再通过神经网络预测颜色、不透明度、几何参数,或者近似局部形变与运动映射函数。这样的组合在实时性能、存储效率与表达精度之间提供了新的折中,但仍面临初始化困难、各模块负载平衡、高频细节保持、大场景扩展性以及可编辑性不足等挑战。
在计算机图形学与计算机视觉层面,基于神经隐式有符号距离场的三维重建在高斯泼溅之后依然持续活跃。其原因在于,有符号距离场天然适合与网格化管线结合,例如 TSDF 或依赖隐式 SDF 的 NeRF 变体,并且在某些情况下能够导出比高斯泼溅网格化结果更高保真的表面。此外,神经辐射场也非常适合建模局部连续场函数,这不仅包括光照场,还包括动态结构中的形变场和用于连续曲面建模的有符号距离场。尤其在基于物理的逆渲染中,NeRF 对真实场景 BRDF 和光照的恢复能力仍然具有明显优势,因为其体渲染框架可较直接地表达遮挡与光传输行为,从而更自然地支持重光照和材质编辑。
高斯泼溅之后神经辐射场与神经场渲染的应用
SLAM 与 三维人体数字人 仍是隐式/混合神经场方法持续活跃的两个核心方向。
七、笔者思考
论文发表于2026年2月。