昇思平台精度调试工具msprobe昇思（MindSpore）平台精度调试工具以 msprobe 为核心，搭配 Dump

昇思（MindSpore）平台精度调试工具以 msprobe 为核心，搭配 Dump 数据采集、MindInsight 可视化、精度比对、溢出 / NaN 检测四大能力，解决昇腾 NPU 上模型训练 / 推理时精度漂移、Loss 异常、梯度爆炸 / 消失等问题，支持与 CPU/GPU 基准逐算子比对，快速定位精度根因，适配 MindSpore 全版本与大模型场景昇思MindSpore。

一、核心功能与内容

1. msprobe 精度调试引擎（核心）

msprobe 是 MindStudio 官方精度工具链，提供全流程闭环调试：

精度预检：训练前扫描模型算子兼容性、数据类型、混合精度配置，提前预警精度风险昇思MindSpore。
数据采集（Dump）：按迭代 / 层级采集前向 / 反向张量、权重、梯度、统计值（均值 / 方差 / 最值），支持全量 / 增量 / 指定层采集昇思MindSpore。
溢出检测：自动识别 NaN/INF 异常值、数值溢出、梯度为 0 等致命问题，定位首个异常算子昇腾。
跨框架比对：与 GPU/PyTorch 基准逐算子比对，输出余弦相似度、最大绝对误差（MAE）、相对误差，量化精度差异昇思MindSpore。
配置检查：对比昇腾与基准环境随机种子、混合精度、优化器、数据增强等配置差异，排除环境导致的精度问题昇思MindSpore。

2. 配套工具

MindInsight：Web 可视化，展示计算图、张量分布、精度比对热力图、异常点定位昇思MindSpore。
TroubleShooter：命令行工具，快速对比权重文件（ckpt/pth）、Dump 张量，定位参数 / 输出差异昇思MindSpore。
Dump 原生接口：无需 msprobe，通过 JSON 配置直接采集算子数据，轻量高效昇思MindSpore。

3. 适用场景

模型迁移（GPU→昇腾）精度对齐
训练 Loss 不收敛、震荡、NaN
推理精度低于基准（如分类准确率下降）
大模型（LLaMA/SD）混合精度 / 量化精度调试
算子自定义开发精度验证

二、代码与配置实战

1. 环境安装（msprobe）

# 安装msprobe（适配MindSpore 2.4+）
pip install msprobe --upgrade
# 验证安装
python -c "from msprobe.mindspore import PrecisionDebugger; print('msprobe安装成功')"

2. 方式 1：msprobe 全流程精度调试（推荐）

步骤 1：创建配置文件 config.json

{
  "dump": {
    "dump_path": "./ms_dump",
    "dump_step": "0|1|5-8",
    "dump_mode": "tensor",
    "dump_layers": ["conv1", "fc1", "MatMul"],
    "dump_input_output": 1
  },
  "overflow_check": {
    "enable": true,
    "check_step": "all"
  },
  "compare": {
    "enable": true,
    "base_path": "./gpu_dump",
    "metrics": ["cosine", "mae", "relative"]
  },
  "config_check": {
    "enable": true,
    "base_config": "./gpu_config.json"
  }
}

步骤 2：训练脚本集成（MindSpore）

import mindspore as ms
from mindspore import nn, Model
from msprobe.mindspore import PrecisionDebugger

# 1. 初始化精度调试器
debugger = PrecisionDebugger(config_path="config.json")
ms.set_context(device_target="Ascend")

# 2. 构建模型
class Net(nn.Cell):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(1, 32, 3)
        self.relu = nn.ReLU()
        self.flatten = nn.Flatten()
        self.fc1 = nn.Dense(32*26*26, 10)
    
    def construct(self, x):
        x = self.relu(self.conv1(x))
        x = self.flatten(x)
        return self.fc1(x)

# 3. 启动调试（训练前）
debugger.start()

# 4. 训练流程
model = Model(Net(), loss_fn=nn.SoftmaxCrossEntropyWithLogits(), metrics={"acc"})
dataset = create_dataset()  # 自定义数据集加载

for epoch in range(5):
    model.train(epoch, dataset)
    debugger.step()  # 每轮迭代后更新调试状态

# 5. 停止调试（必须调用）
debugger.stop()
print("精度调试完成，报告生成于：./ms_dump/report.html")

3. 方式 2：原生 Dump 功能（轻量采集）

步骤 1：dump_config.json

{
  "common_dump_settings": {
    "path": "./native_dump",
    "iteration": "0|1|2",
    "saved_data": "tensor",
    "input_output": 0,
    "support_device": [0]
  },
  "e2e_dump_settings": {"enable": true}
}

步骤 2：启动训练（环境变量使能）

# 设置Dump配置
export MINDSPORE_DUMP_CONFIG="./dump_config.json"
# 运行训练脚本
python train.py

4. 精度比对与异常定位（TroubleShooter）

from msprobe.core import TroubleShooter

# 初始化比对器
ts = TroubleShooter()
# 比对昇腾与GPU Dump数据
compare_result = ts.compare(
    ascend_path="./ms_dump",
    base_path="./gpu_dump",
    threshold=0.95  # 余弦相似度阈值
)
# 输出异常算子
print("精度差异算子：")
for layer, metrics in compare_result.items():
    if metrics["cosine"] < 0.95:
        print(f"{layer}: 余弦相似度={metrics['cosine']:.4f}, MAE={metrics['mae']:.2e}")

三、关键指标与效果

精度对齐：算子级余弦相似度≥0.99，MAE≤1e-6，视为精度一致昇思MindSpore。
溢出定位：自动打印首个 NaN/INF 算子名称、迭代步、输入输出值昇腾。
效率提升：传统人工定位需数天，msprobe 可在 1 小时内定位根因。
大模型适配：支持千亿参数模型增量 Dump，内存占用降低 70%昇思MindSpore。

四、总结

昇思精度调试工具以 msprobe 为核心，构建 “采集 — 检测 — 比对 — 定位” 全链路能力，无需修改模型核心代码，通过配置化与 API 化实现精度问题快速闭环。在昇腾生态模型迁移、大模型训练、算子开发中，是保障精度、提升效率的必备工具，助力开发者在昇腾平台实现与 GPU 一致的高精度表现。