Where is NaN? 快速从大规模数组中定位 NaN 值 —— GPU/CUDA和CPU三方案对比在科学计算、图像

在科学计算、图像处理和机器学习领域，数组中出现 NaN（Not a Number）或 Inf 是常见问题。当数据规模达到 10⁸ 以上时，如何快速定位所有 NaN 值的索引位置，成为一项具有挑战性的任务。本文将从技术实现、性能优化和线程模型等维度，全面比较 GPU 与 CPU 上高效检测 NaN 值的三种方案。

为什么要专门检测 NaN？

NaN 值通常是数值溢出、除以零、未初始化或异常操作的结果。一旦进入后续的归一化、矩阵运算或模型训练流程，可能导致整个计算结果失效。在大规模数据分析中，若不及时发现和定位 NaN，后续逻辑可能产生巨大偏差。

虽然判断单个值是否为 NaN 看似简单（调用 isnan() 或比较 x != x），但当数据规模庞大时，存储访问、线程同步和写操作成本成为性能瓶颈。

三种方案概览

本文比较三条技术路线：

方案一：CPU + OpenMP 并行方案

利用 OpenMP 的多线程机制，将数组划分为多个区间，每个线程独立扫描并收集本地 NaN 索引，最后合并结果。这是最容易实现的方案，兼容性好且便于调试，但受限于 CPU 内存带宽，在大规模数据上性能较差。

#pragma omp for
for (size_t i = 0; i < N; ++i)
    if (std::isnan(data[i]))
        local_indices.push_back(i);

优化建议：预分配 vector 容量，避免频繁的 push_back 扩容操作。

方案二：GPU + Thrust copy_if 方案

利用 thrust::counting_iterator 生成索引序列，以数据数组作为判断条件，使用 thrust::copy_if 将 NaN 位置的索引压缩输出。该方法无需原子操作，输出索引自动升序排列，整体稳定高效。

auto end_it = thrust::copy_if(
    thrust::counting_iterator<int>(0),
    thrust::counting_iterator<int>(N),
    d_data_ptr, d_out_ptr, is_nan_pred());
size_t num_nans = end_it - d_out_ptr;

方案三：GPU + atomicAdd 方案

自定义 CUDA Kernel，每个线程判断一个或多个元素。当检测到 NaN 时，通过 atomicAdd 获取写入位置并记录索引。该方案在 NaN 极度稀疏时性能最优，因为写操作极少；但当 NaN 数量较多时，原子操作冲突会显著降低效率。

__global__ void collectNaNAtomic(const float* data, size_t N, int* out_idx, int* counter) {
    size_t idx = blockIdx.x * blockDim.x + threadIdx.x;
    if (idx >= N) return;
    if (isnan(data[idx])) {
        int pos = atomicAdd(counter, 1);
        out_idx[pos] = (int)idx;
    }
}

方案对比

方案	核心思想	优点	缺点
CPU + OpenMP	多线程扫描，收集索引	易于调试，兼容性好	内存带宽受限，大规模慢
GPU + Thrust copy_if	索引流压缩	稳定高效，输出有序	写量多时有开销
GPU + atomicAdd	原子计数写索引	稀疏 NaN 时极快	NaN 多时冲突大

性能优化建议

访存对齐：GPU 读取应满足 coalesced 访问模式
减少写操作：输出压缩为 K 个索引比写 N 个标志位更快
利用 warp/block 级别操作：可参考 warp 投票和前缀和技术实现压缩
早退出策略：若仅检测是否存在 NaN，发现后可终止扫描
分块 + 多流：数据量大于显存时，分块并用多 stream 并行处理

总结

选择哪种方案取决于 NaN 的稀疏程度和数据规模。对于一般场景，Thrust copy_if 是最稳妥的选择；当 NaN 极稀疏时，atomicAdd 方案可能更快；而 CPU 方案适合无 GPU 环境或调试阶段使用。

本文来源于公众号「梁柱墙笔记」，原文链接：mp.weixin.qq.com/s/kjUspLi-g…