文献阅读：A Survey on 3D Gaussian Splatting3D GS 作为一种具有突破意义的显式辐射场

一、摘要

3D Gaussian splatting (GS) has emerged as a transformative technique in radiance fields. Unlike mainstream implicit neural models, 3D GS uses millions of learnable 3D Gaussians for an explicit scene representation. Paired with a differentiable rendering algorithm, this approach achieves real-time rendering and unprecedented editability, making it a potential game-changer for 3D reconstruction and representation. In the present paper, we provide the first systematic overview of the recent developments and critical contributions in 3D GS. We begin with a detailed exploration of the underlying principles and the driving forces behind the emergence of 3D GS, laying the groundwork for understanding its significance. A focal point of our discussion is the practical applicability of 3D GS. By enabling unprecedented rendering speed, 3D GS opens up a plethora of applications, ranging from virtual reality to interactive media and beyond. This is complemented by a comparative analysis of leading 3D GS models, evaluated across various benchmark tasks to highlight their performance and practical utility. The survey concludes by identifying current challenges and suggesting potential avenues for future research. Through this survey, we aim to provide a valuable resource for both newcomers and seasoned researchers, fostering further exploration and advancement in explicit radiance field.

3D Gaussian Splatting（3D GS）近年来已成为辐射场表示领域中具有变革意义的一项关键技术。与主流的隐式神经场方法不同，3D GS 采用数以百万计、可学习的三维高斯元来构建场景的显式表示。在可微渲染算法的配合下，这一方法不仅能够实现实时渲染，还展现出前所未有的编辑灵活性，因此被广泛认为有望重塑三维重建与场景表示的发展格局。本文系统梳理了 3D GS 近年来的重要进展与代表性贡献，构成了该方向首个较为完整的综述框架。文章首先深入介绍 3D GS 的基本原理及其兴起背后的关键驱动因素，为理解其学术价值与实际意义奠定基础。随后，本文重点讨论了 3D GS 的实际应用潜力。凭借显著提升的渲染速度，3D GS 已展现出广泛的应用前景，涵盖虚拟现实、交互媒体等多个领域，并有望进一步扩展到更多实时场景。在此基础上，本文还对当前主流的 3D GS 模型进行了横向比较，并结合多个基准任务分析其性能表现与应用价值。最后，综述总结了当前研究中仍然存在的关键挑战，并提出若干值得进一步深入探索的未来研究方向。本文旨在为初学者与相关研究人员提供系统、清晰且具有参考价值的知识框架，以促进显式辐射场方向的持续发展。

论文链接如下：<[2401.03890] A Survey on 3D Gaussian Splatting>

二、基本原理

前向渲染

假设一个场景已经由大量优化后的三维高斯元进行表示，当前任务是在给定相机位姿下生成对应图像。与 NeRF 依赖沿像素光线进行高代价体渲染不同，3D GS 首先将这些三维高斯元投影到图像平面，这一过程称为“splatting”。随后，对投影后的高斯元进行排序，并据此计算每个像素的颜色。从更抽象的角度看，NeRF 的渲染可以被理解为一种“逆向映射”过程：从图像像素出发，沿光线回到三维空间取样；而 3D GS 则更接近“正向映射”：先将三维高斯元投影到图像平面，再执行并行栅格化渲染。

三维高斯元的属性

一个三维高斯元通常由以下几类属性构成：

中心位置 μ
不透明度 α
三维协方差矩阵 Σ
颜色 c

其中，颜色通常借助球谐函数建模其视角相关性。上述属性均为可学习参数，并通过反向传播进行优化。

视锥剪裁

在给定相机位姿后，首先需要判断哪些三维高斯元位于相机视锥之外。被裁剪掉的高斯元不再参与后续渲染计算，从而减少不必要的开销。

Splatting：从三维到二维的投影

在此步骤中，三维空间中的高斯椭球被投影到二维图像空间，形成二维高斯椭圆。若三维高斯元的空间分布由协方差矩阵 $Σ$ 表示，观察变换矩阵为 $W$ ，则其投影后的二维协方差矩阵 $Σ^′$ 可表示为：

Σ^′=JWΣW^⊤J^⊤

其中， $J$ 是对透视投影进行仿射近似后所得雅可比矩阵。之所以不直接使用标准相机内参下的透视投影，是因为透视映射本身并非仿射变换，无法直接作用于协方差矩阵。因此，3D GS 采用了对透视投影的一阶近似。

逐像素渲染

为了先说明其基本工作机制，可以从最简单的逐像素渲染形式理解 3D GS。对于图像中的某个像素位置 $x$ ，可先计算所有与该像素投影区域相交的高斯元在视空间中的深度，并据此得到一个按深度排序的高斯列表 $N$ 。然后通过 $α-$ 混合计算该像素的最终颜色：

C=∑_{n=1}^{∣N∣}​c_n​α_n^′​∏_{j=1}^{n−1}​(1−α_j^′​)

其中， $c_n$ 为第 n 个高斯元的学习颜色， $α_n^′$ 是其对当前像素的实际贡献强度，由学习得到的不透明度 $α_n$ 与高斯分布值共同决定：

α_n^′=α_n × exp(−\frac{1}{2}​(x^′−μ_n^′​)^⊤ Σ_n^{′−1}(x^′−μ_n^′))

这里， $x^′$ 与 $μ_n^′$ 都位于投影后的二维空间中。

不过，这种逐像素构建排序列表并混合的方式，虽然概念直观，但在实际中并不高效。特别是，排序过程不易充分并行化，因此如果直接采用该策略，渲染速度并不一定优于 NeRF。为实现实时渲染，3D GS 在工程实现上进行了一些近似与结构调整，以换取高度并行计算能力。

Tile（图块）机制

为了避免对每个像素单独计算重叠高斯元的高成本，3D GS 将计算粒度从像素级放宽到图块级，这一思路受到基于 tile 的栅格化启发。具体地，图像会先被划分为多个互不重叠的小块，每个 tile 通常包含 16×16 个像素。接着，需要判断哪些投影高斯元与哪些 tile 相交。

由于一个高斯元可能覆盖多个 tile，因此常见做法是对该高斯元进行复制，并为每个副本赋予对应的 tile 标识，以便后续按 tile 组织计算。

并行渲染

在完成高斯元复制后，3D GS 会将每个高斯副本所属的 tile ID 与其深度值组合起来，形成一个待排序的数据序列。排序后，系统就能够直接按 tile 为单位执行 alpha compositing（透明度混合）。由于各个 tile 之间、各个像素之间在计算上是独立的，因此整个过程非常适合并行执行。

更进一步，同一 tile 中的像素能够访问共享内存中的同一有序高斯列表，并以统一的读取顺序逐个处理这些高斯元。每个像素根据自身位置与当前高斯元的距离，计算其具体贡献。这样一来，对于一个 tile，只需遍历其高斯列表一次，即可完成该 tile 内全部像素的渲染。这种设计极大提升了效率。在原始实现中，这一结构与 CUDA 中 block 和 thread 的组织方式高度对应。

优化过程

高斯元属性的参数优化

（1）损失函数

完成图像合成后，可以通过比较渲染图像与真实图像之间的差异来更新参数。原始 3D GS 采用随机梯度下降，对所有可学习参数进行联合优化，并结合 L1 损失与 D-SSIM 损失作为训练目标：

L=(1−λ)L_1​+λL_{D−SSIM}

其中， $λ∈[0,1]$ 为权重系数。

（2）参数更新

三维高斯元的大多数属性都可以通过反向传播直接更新。但需要特别指出的是，若直接对协方差矩阵 $Σ$ 进行优化，可能导致其不再满足正半定性，从而失去协方差矩阵应有的物理意义。

为避免这一问题，3D GS 不直接优化 $Σ$ ，而是转而优化：

一个四元数 $q$ ，用于表示旋转；
一个三维向量 $s$ ，用于表示尺度。

然后通过如下方式重构协方差矩阵：

Σ=RSS^⊤R^⊤

其中， $R$ 是由四元数 $q$ 转换得到的旋转矩阵， $S$ 是由 $s$ 构成的对角尺度矩阵。

可以看到，从 $q,s$ 到最终像素不透明度 $α$ 的计算链条较长，即 $q,s→Σ→Σ^′→α$ 。
为减少自动微分带来的计算负担，3D GS 对 $q$ 和 $s$ 的梯度进行了显式推导，从而在训练时能够直接计算对应梯度，加速优化过程。

高斯元密度的自适应控制

（1）初始化

3D GS 通常从一组稀疏点开始初始化，这些点可以来自 SfM，也可以随机生成。值得强调的是，初始化质量对模型收敛速度与最终重建质量具有重要影响。初始化之后，训练过程中还会穿插执行高斯元的增密（densification）与剪枝（pruning），以动态调整场景表示的精细程度。

（2）点增密

在增密阶段，3D GS 会自适应地增加高斯元数量，以更好刻画场景中的细节结构。该过程主要关注两类区域：

几何细节缺失的区域；
高斯元分布过于稀疏或尺度过大的区域。

增密通常每隔若干训练迭代执行一次，重点处理那些视空间位置梯度较大的高斯元。对于这些高斯元，系统会进行两种操作之一：

克隆（cloning） ：若高斯元较小但局部结构仍欠重建，则复制其一份，并沿梯度方向移动；
分裂（splitting） ：若高斯元过大，说明其覆盖区域过粗，则将其替换为两个更小的高斯元，并适当缩小其尺度。

这一过程旨在不断优化高斯元在三维空间中的分布，使其更适合表达真实场景结构，从而提升整体重建质量。

（3）点剪枝

点剪枝可视为一种正则化手段，用于删除冗余或贡献很小的高斯元。常见的删除对象包括：

几乎完全透明的不重要高斯元，即 α 低于阈值者；
在世界空间或视空间中过大的高斯元。

此外，为防止在输入相机附近出现不合理的高斯元密度堆积，原始方法还会在训练到一定阶段后，将一部分高斯元的 alpha 值重新压低至接近零，从而让必要的高斯元逐渐重新生长，同时淘汰冗余成分。这样既有助于节省计算资源，也有助于维持场景表示的紧凑性与有效性。

三、研究方向

面向稀疏输入的 3D GS

3D GS 的一个显著问题在于：当观测数据不足时，场景中未被充分观察的区域容易出现伪影。这是辐射场渲染中的共性难题，而在实际应用中，如何利用极少视角完成可用的三维重建又具有非常高的价值。现有方法大致可分为两类：

（1）基于正则化的方法

这类方法通过引入额外约束，例如深度信息，来增强几何细节与全局一致性。例如：

DNGaussian 通过深度正则化缓解稀疏输入下几何退化问题；
FSGS 在初始化阶段提出 Gaussian Unpooling，并结合深度正则化；
MVSplat 利用代价体（cost volume）为几何恢复提供更强提示。

不过，当输入视角极少，甚至只有单张图像时，仅依靠正则化通常难以维持稳定性能。

（2）基于泛化先验的方法

当观测极其有限时，研究开始转向引入学习得到的先验知识。这类方法通常包括两条思路：

利用生成模型合成额外视角，再将其纳入已有重建流程；
训练前馈式 Gaussian 模型，直接预测一组 3D 高斯元的属性。

前者能够增强观测覆盖，但计算成本较高，且效果受限于生成模型本身。后者更直接，例如：PixelSplat 从稠密概率分布中采样高斯元；Splatter Image 利用二维图像到图像网络，为每个像素预测对应的三维高斯元。

但由于这些像素对齐的高斯元往往在空间中近似均匀分布，因此在表示高频细节区域和大面积平滑区域时，往往难以做到高斯元数量分配的最优平衡。

总体而言，稀疏输入下 3D GS 的核心难点在于先验建模：无论是深度先验、生成式先验，还是前馈式 Gaussian 先验，本质上都在平衡两个目标：对现有视图进行充分拟合以及借助学习先验实现合理泛化。

未来的研究可考虑构建更自适应的机制来调节这种平衡，例如学习置信度、上下文感知的先验选择机制、或结合用户偏好的控制方式等。此外，目前大多数研究仍聚焦静态场景，而如何将稀疏输入方案扩展到动态场景，并处理时间一致性与运动引起的伪影，是一个很有前景的方向。

内存高效的 3D GS

尽管 3D GS 具备出色能力，但在可扩展性方面仍面临较大挑战。与 NeRF 只需存储 MLP 参数相比，3D GS 往往需要显式存储大量高斯元及其属性，因此在大规模场景中，其内存和计算压力会迅速上升。这一问题在大场景建模与部署中尤为突出，因此，如何降低训练与存储阶段的内存消耗已成为关键问题。当前研究主要沿两个方向展开：

（1）减少高斯元数量

一种思路是直接降低场景中需要保留的三维高斯元数量。例如：

通过对低贡献高斯元进行剪枝来精简表示；
通过局部聚类得到“局部锚点”，让邻近高斯元共享部分属性；
结合哈希网格等结构来压缩高斯元组织方式。

（2）压缩高斯元属性

另一类工作则聚焦于压缩单个高斯元的属性存储。例如：

将颜色与其他参数映射到更紧凑的码本中；
基于敏感性分析执行量化与微调；
使用概率建模与自适应量化策略压缩离散属性。

这两类思路并不冲突，许多方法实际上同时采用“减少数量 + 压缩属性”的混合方案。目前，相关技术在模型存储方面已经取得了明显效果，常见压缩比可达到原始体积的 10 至 20 倍。但仍有若干重要挑战未解决，尤其包括：

训练阶段的内存效率仍需进一步提升；
如何设计与场景无关、可复用的通用码本；
如何在压缩率与视觉质量之间取得更优平衡。

更具照片真实感的 3D GS

当前 3D GS 的渲染流程虽然高效，但也存在一些与简化近似相关的问题。例如，简单的可见性处理方式可能导致高斯元的深度顺序或混合顺序突然变化，进而引发视觉不稳定。除此之外，在锯齿、反射、模糊等真实感相关方面，现有系统仍有改进空间。当前研究主要围绕以下三类视觉质量问题展开：

（1）锯齿（Aliasing）

由于 3D GS 在渲染时通常将每个像素视为一个离散采样点，而不是面积单元，因此在不同分辨率或缩放场景下容易出现模糊、边缘锯齿等混叠问题。为缓解该问题，研究者分别从训练阶段和推理阶段提出了改进策略：

训练阶段：多尺度高斯、2D Mip 滤波、条件 logistic 函数等；
推理阶段：尺度自适应滤波等方法，可作为后处理或直接嵌入现有系统。

（2）反射（Reflection）

真实反射材质的重建和渲染一直是三维重建中的难题。针对这一问题，已有研究尝试：

显式建模反射材料；
引入可重光照的 Gaussian 表示；
结合 BRDF 分解或光线追踪机制增强镜面表现。

但总体而言，要在 3D GS 中实现物理上准确的高光与镜面反射，依然极具挑战。

（3）模糊（Blur）

虽然 3D GS 在精心采集的数据集上表现出色，但真实世界图像通常包含运动模糊或失焦模糊。为解决这一问题，一些方法在训练时显式建模模糊过程，例如：

由粗到细优化模糊核；
结合光度束调整（photometric bundle adjustment）等机制。

更优的优化算法

3D GS 的优化过程本身也存在若干问题，例如收敛速度不理想、错误的高斯元形态导致视觉伪影，以及优化过程中缺少足够强的结构约束等。原始优化策略可能在某些区域产生过度重建，而在另一些区域表达不足，从而带来模糊与不一致。当前改进大致可以归纳为三个方向：

（1）引入额外正则化

常见做法包括加入频率约束或几何约束，其中几何感知方法尤为有效。例如：

引入局部锚点保持场景结构；
增加深度和表面约束；
利用 Gaussian volume 等结构增强几何一致性。

（2）改进优化流程

虽然原始 3D GS 所采用的密度控制策略已经很有价值，但仍有明显提升空间。例如，GaussianPro 针对纹理缺失表面与大规模场景提出了更先进的增密策略，从而改进高斯元的分布质量。

（3）放松外部工具依赖

原始 3D GS 较依赖外部 SfM 系统来完成初始化，但 SfM 在复杂场景下本身容易出错，可能成为系统性能上限的瓶颈。为此，近期研究开始探索不依赖 COLMAP/SfM 的方案，例如利用视频时序连续性直接恢复位姿、深度和内参，从而实现更大规模、弱约束甚至互联网视频上的学习。

作者同时指出，现有方法大多关注“从零开始”优化高斯元来完成重建，而一个更具挑战也更有潜力的方向，是借助预先学习得到的“元表示（meta representations）”实现少样本重建。这意味着模型不仅学习某个具体场景，还学习跨场景的结构性知识，从而在新场景中快速适配。

具有更多属性的 3D 高斯表示

尽管原始 3D GS 已能很好地服务于新视角合成，但其高斯元属性主要仍围绕外观渲染展开。如果进一步为三维高斯元赋予额外属性，例如语言属性、语义/实例属性，乃至时空属性，则其潜力将远不止于渲染本身，而会扩展到场景理解、交互编辑乃至动态建模等多个方向。以下是几个代表性方向：

（1）嵌入语言信息的场景表示

由于带语言嵌入的场景表示往往计算与存储开销很大，有研究提出对高斯元附加经过压缩的语言嵌入，而非直接使用高维语义特征。这一思路不仅降低了成本，还有助于缓解语义歧义，并在不确定性引导下提升开放词汇查询的精度。

（2）场景理解与编辑

一些工作将 3D GS 与来自二维基础模型的特征蒸馏结合起来，从而学习低维特征场，并利用轻量级解码器恢复更高质量特征。这样一来，3D GS 不仅能够渲染，还可用于语义分割、语言驱动编辑等任务。

（3）时空建模

为表示动态场景的复杂时空变化，有研究将时空视为统一整体，并使用 4D 高斯表示来近似动态场景的时空体积。这种表示及其对应渲染管线能够建模空间和时间中的任意旋转，并支持端到端训练。

混合表示

与其只为高斯元附加额外属性，另一条有前景的路径是将 3D GS 与更结构化的信息结合起来，例如空间 MLP、网格、哈希结构等，以适应特定下游任务。

（1）面部表情建模

在高保真三维头部重建中，研究者将可控的三维高斯元与基于 MLP 的形变场结合，用于同时表达高精度细节与复杂面部表情动态。

（2）动态场景建模

另一类方法在规范空间中学习可变形高斯元，并借助空间 MLP 来建模时空变形。还有工作引入退火平滑训练策略，以在不增加额外计算成本的情况下改善时间连续性。

（3）风格迁移

在实时神经场风格化中，一些方法将预训练的高斯表示与多分辨率哈希网格、小型 MLP 结合，从而在保持渲染速度的同时实现跨视角一致的风格化效果。

面向三维高斯的新渲染算法

虽然 3D GS 基于栅格化的渲染流程已经实现了极高的实时性能，但这一范式仍存在若干固有限制，例如：

不易处理强畸变相机模型，这对机器人任务尤为重要；
难以自然支持二次光线，如反射、阴影等光学效应；
与随机光线采样类渲染框架兼容性较差。

此外，原始 3D GS 往往默认高斯元之间不严重重叠，且仅通过中心点即可完成排序，但这些假设在实际中并不总成立。因此，当相机运动导致排序关系发生变化时，可能引发时间伪影或“跳变”。为此，近期有研究转向基于光线追踪的三维高斯渲染算法。有方法专门为 Gaussian primitive 设计高效光线追踪框架，并结合不均匀密度与交错分布特征提出加速策略；也有工作提出物理上更准确的恒定密度椭球体表示，从而能精确计算体渲染积分，而不再依赖近似混合规则，这有助于消除“popping”伪影。

随着渲染范式从栅格化转向光线追踪，一系列新的能力有望被激活，包括：更真实的反射、折射、阴影与全局光照；对复杂相机模型的支持，如强畸变镜头、滚动快门；更精确的视角相关外观建模；更适用于逆渲染、物理材质建模与复杂场景重建的底层能力。尽管这类方法目前仍伴随更高计算代价，但它们为 3D GS 未来走向更高物理真实感提供了重要基础。

四、应用领域

机器人

（1）SLAM

基于 GS 的 SLAM 方法在实时稠密建图方面展现出显著优势。其中：

RGB-D SLAM 借助深度监督提升几何精度，但在低纹理或运动退化环境中仍存在困难；
仅 RGB 的方案避免了对深度传感器的依赖，但面临尺度不确定与漂移问题；
多传感器融合方案，如结合 LiDAR，可增强复杂环境中的鲁棒性，但也增加了系统标定难度；
语义 SLAM 将对象级语义纳入场景理解，但会受到颜色敏感性或计算开销的制约。

（2）机器人操作

基于 3D GS 的操作方法可借助高斯元中编码的几何与语义属性，直接支持抓取等任务，而不必像某些 NeRF 系统那样额外依赖姿态估计。对于静态环境，这类方案能够实现更快的单阶段操作；而对于多阶段操作任务，还需要进一步处理环境动态变化、物体交互与材料顺应性等问题。

（3）机器人世界模型

由于 3D GS 具备显式且可编辑的场景表示特性，它也为构建可实时校正的机器人世界模型提供了新可能。

不过，这一方向仍面临三项关键挑战：动态与非结构化环境下的适应能力不足；语义映射的泛化性有限；高斯元缺乏天然顺序结构。未来的关键，可能在于如何将高保真重建进一步提升为可执行的语义理解与物理推理能力，从而推动机器人从“被动地图构建”迈向“具身智能”。

动态场景重建

动态场景重建旨在恢复随时间变化的三维场景结构、外观与运动状态，是虚拟现实、三维动画和自动驾驶等应用中的关键问题。将 3D GS 扩展到动态场景的核心，在于时间维度建模。目前相关方法大致可分为两类：

（1）借助附加场建模形变

这一类方法通常引入空间 MLP 或网格结构，在规范空间中学习高斯元表示，再通过隐式形变场建模时空变化。例如，有工作提出可变形三维高斯元，在规范空间中学习其基础表示，并通过 MLP 建模空间—时间形变；也有方法先将高斯分布体素化，再利用稀疏卷积提取几何感知特征，用于后续形变学习。

（2）在高斯表示中直接编码动态属性

另一类方法则尝试直接在高斯元表示中加入动态属性，并设计相应渲染流程。例如，有方法保持高斯元的颜色、尺度等属性不随时间变化，仅允许其位置与方向变化；也有工作提出四维高斯表示，通过引入额外属性来表达四维旋转与时空体积变化。

尽管这些方法推动了动态重建的发展，但当前 3D GS 对动态场景的建模仍存在局限：过于依赖细粒度高斯元，导致大规模场景下可扩展性不足；静态区域与动态区域往往混合建模，难以在复杂环境中保持效率；缺乏对象级运动建模，容易在长序列中累积伪影并影响泛化能力。未来，面向对象的表示框架可能是重要方向，即将高斯元组织为具有持久身份的对象实体，从而更清晰地区分动态与静态成分。

生成与编辑

内容生成与编辑是现代人工智能系统中的两项核心能力。生成负责从零开始或基于条件输入合成新内容；编辑则允许用户对已有内容进行精确修改与迭代优化。3D GS 凭借其显式、可控和高效的场景表示形式，在这两类任务中都展现出很高潜力。

（1）三维内容生成

现有基于 3D GS 的生成方法主要可以分为三类：

基于优化的方法：
利用扩散模型等生成先验提供梯度信号，指导三维表示逐步更新。这类方法往往图像质量较高，但计算成本也较大，因为优化中需要反复比较多个视角。
基于重建的方法：
将三维生成问题转化为多视角重建任务，并借助预训练的多视图扩散模型辅助生成。这一路线实现直观，但在跨视角几何一致性方面常存在问题，容易出现表面不一致或纹理劣化。
直接三维生成方法：
直接在三维表示上训练扩散模型，从而天然具备更好的多视角一致性。但这类方法的训练成本极高，限制了其训练规模与生成多样性。

（2）三维内容编辑

当前编辑方法大致分为两类：

借助二维编辑模型进行迭代优化：
例如利用二维扩散编辑器对多个视图逐次编辑，再将修改结果反馈到三维高斯表示中。这类方法直观灵活，但若对不同视角独立编辑，容易引发跨视角不一致。后续工作通过迭代优化或跨视角注意力机制缓解这一问题，但也增加了计算代价。
直接基于显式高斯属性进行编辑：
由于 3D GS 本身是显式表示，因此可基于高斯元中的语义、关键点等属性，直接执行对象级编辑操作。这一路线更符合三维一致性的需求，但目前探索仍较少，原因包括：高斯元天然无序，难以建立高效索引；几何与纹理的修改需要非常精细的正则化与对齐策略，否则容易破坏场景合理性。

Avatar

Avatar 作为用户在虚拟空间中的数字化身，广泛应用于游戏、虚拟人、在线会议、医疗和教育等领域。随着 AR/VR 技术的发展，高质量、可控、实时的数字人建模变得越来越重要，而 3D GS 为这一方向提供了新的技术路径。当前 3D GS 在 Avatar 方向主要沿两条路线推进：

（1）全身 Avatar

这类方法通常将高斯元锚定在规范空间中，再结合参数化人体模型（如 SMPL）或骨架绑定机制，对其进行形变，以表达人体动作。常见策略是：使用线性混合蒙皮处理骨架驱动的刚性变换；使用姿态条件形变场刻画肌肉抖动等非刚性细节。

（2）头部 Avatar

头部建模更加关注精细面部表情、皱纹、头发等细节，以及语音驱动的动态动画。常见方法将可形变的人脸模型（如 FLAME）与可变形三维高斯表示结合起来，以分离头部整体姿态与非刚性表情变化。

内窥镜场景重建

有方法结合深度监督、时空权重掩码与表面对齐正则项，以同时提高组织渲染质量与速度，并缓解器械遮挡影响；
有方法提出整体式高斯初始化和时空高斯跟踪策略，以改善致密初始化与表面动态建模；
也有工作从频率视角分析现有方法的欠重建问题，并提出对应缓解方案；
此外，一些方法已将 3D GS 引入内窥镜 SLAM 系统，并展现出明显的速度优势。

大规模场景重建

大规模场景重建广泛应用于自动驾驶、航测以及 AR/VR 等领域，对视觉真实感与实时渲染能力提出了双重要求。虽然 NeRF 在中小场景中取得了成功，但一旦扩展到平方公里级别的大规模环境，其渲染速度和细节保真度通常难以满足需求。3D GS 在这方面显示出明显优势，但将其直接应用到超大规模场景时，也会带来新的挑战：为维持大场景中的视觉质量，需要大量高斯元；由此导致显著的 GPU 内存压力；渲染时的计算负担随之上升。为应对这些问题，研究者主要从两个方面进行改进：

（1）训练阶段：分而治之

一种常见策略是将大场景划分为多个相互独立的单元，并对这些子场景并行优化。与此同时，大规模场景中还经常包含大片无纹理区域，这会削弱初始化与密度控制的效果，因此对优化算法本身的改进也非常关键。

（2）渲染阶段：引入细节层次（LoD）

借鉴传统图形学中的 LoD 思想，系统只向栅格器输入当前视角下必需的高斯元，或构建显式的层级结构，如八叉树与层次表示，以在视觉质量和效率之间取得平衡。

此外，融合 LiDAR 等额外模态也能进一步增强大规模场景的重建质量。

未来仍有两项突出挑战：如何在稀疏或不完整采集条件下维持高质量重建；如何通过分布式训练、参数分区与并行多视图优化等机制，进一步突破内存与算力瓶颈。

物理建模与仿真

真实世界中的复杂动态，如流体运动、种子散落、弹性形变等，对于虚拟现实、动画制作和科学模拟都非常重要。虽然扩散模型推动了 4D 内容生成的发展，但许多方法只能生成“视觉上合理”的结果，却未必遵循真实物理规律。3D GS 则为将物理约束嵌入场景表示提供了新的可能，从而实现兼顾视觉可信度与物理一致性的动态建模。

现有方法在物理建模上的差异，主要体现在如何引入和整合物理先验：

最常见的做法是使用物理仿真引擎，如 MLS-MPM 等，引导动态过程生成；
材料点方法与基于位置的动力学在该社区中已被广泛探索，并被用于流体、颗粒材料和断裂固体等仿真；
也有工作采用解析式材料模型，例如质量—弹簧系统，通过显式编码材料属性来近似变形。

在这些方法中，3D 高斯元通常被视作离散粒子，作为仿真器中的基本计算单元。未知材料参数或物理属性，则通常通过视频监督或条件生成模型进行学习。

尽管已有进展，物理约束下的 3D GS 仍存在明显局限：

难以统一处理刚体、弹性体和软体等多种物理行为；
多对象、多材料交互往往仍需人工干预；
对环境反馈、动态光照变化等场景级相互作用建模不足。

五、未来研究方向

物理与语义感知的场景表示

3D 高斯表示不仅可用于新视角合成，也有潜力同时服务于场景重建与场景理解。未来，若能在同一框架中融合物理信息与语义信息，将可能显著提升场景表示的质量与能力。例如：

融入对象一般形状等先验，可减少对大量训练视角的依赖；
同时改善几何重建、表面恢复、纹理与光照一致性；
支持更强的动态建模、可控编辑、内容生成等下游任务。

简言之，面向物理与语义感知的 3D GS，有望成为更通用、更智能的场景表示基础。

从大规模数据中学习物理先验

在推进物理与语义感知场景表示的同时，一个非常有前景的方向，是从大规模真实数据中学习可泛化的物理先验。其目标是挖掘现实世界中的内在物理属性和动态规律，并将其转化为能够迁移到机器人、特效、交互系统等多种场景中的知识。这样一来，模型便可在少样本条件下快速适应新对象和新环境。

作者指出，这一方向目前相关工作仍然较少，未来可从 real2sim 与 sim2real 等路径中进一步探索。

用 3D GS 建模物体内部结构

尽管 3D GS 在外部外观渲染上表现出色，但若要表示物体内部结构，例如 CT 扫描中的体内部组织，则面临较大困难。原因在于：

高斯元通过 splatting 和密度控制形成的表示通常无序；
这种无序结构很难与物体实际内部体积结构对齐；
许多医学和科学应用更偏好直接使用体表示，而非表面近似。

因此，如何让 3D GS 同时兼顾快速渲染与内部体结构表达，是一个尚未解决的重要问题。

用于自动驾驶仿真的 3D GS 及更广泛应用

自动驾驶感知系统依赖大量真实世界数据，但采集成本高、组织复杂，因此仿真环境成为重要替代路径。3D GS 在城市与街景重建上的初步成果表明，它具备构建高真实感仿真器的潜力。但距离成熟应用，还需解决许多问题，例如：

将用户定义的对象模型纳入场景；
表达受物理规律驱动的动态变化，如车轮旋转；
提升不同光照条件下的可控性和一致性。

如果这些能力得到突破，3D GS 的价值将不仅限于自动驾驶，还将影响世界模型、空间智能与具身 AI 等更广泛领域。

赋予 3D GS 更多可能性

最后，作者认为 3D GS 的应用潜力仍远未被充分发掘。一个重要方向是：

为高斯元加入更多属性，如语言、时空、语义等；
为特定任务引入更合适的结构信息，如空间 MLP、网格等。

此外，已有研究开始将 3D GS 扩展到点云配准、图像表示与压缩、流体合成等领域。这说明 3D GS 不仅是辐射场技术中的一种表示方式，也可能成为跨学科研究中的通用工具。

六、笔者思考

论文发表于2025年10月。