离线推理性能问题分析传统模型迁移到昇腾设备上出现了性能问题，介绍性能问题的定位方法和解决方案，重点介绍了性能问题的定位定

概述

PTA性能调优参考指导：链接

模型从GPU设备迁移到昇腾设备上进行推理时，模型的开箱性能差。

infer_e2e_time = 数据加载时间 + 模型前向时间 + 模型后处理时间 + 通信时间 + 调度时间

数据加载时间：模型在加载自身所需要的数据（如图片、视频和文本等）的时间，包括将数据从硬件存储设备读取到CPU（Central Processing Unit）中、CPU中数据的预处理（编解码等操作）、CPU数据放到Device上的时间。对于一些需要切分在若干张卡上的模型，数据加载还包括从数据加载卡广播到其他卡上的时间。
模型前反向时间：深度学习模型Forward所需的时间。
模型后处理时间：包括数据的后处理、数据同步等。
通信时间：单节点时卡之间和多节点时节点之间的通信时间。由于PyTorch的特殊机制，在通信和计算可以并行的情况下，表示未被计算掩盖的通信时间。
调度时间：模型从CPU的指令到调用NPU侧的核（Kernel）所需要的时间。

性能调优流程：性能数据采集-》算子层优化-》调度策略调整-》通信机制-》模型编译下发等

python -m ais_bench --model ./resnet50_bs1.om --output `pwd`/performance_test --profiler 1

msprof --output=./msprof_out --application="python3 om_infer.py"

各性能文件解析说明：链接

参考指导：链接

pip3 install msprof-analyze

msprof-analyze advisor all -d ./msprof_out/

参考指导：链接

参考文档：性能优化

使用AOE自动调优
模型量化：量化可以模型压缩、减少计算量、缩短推理时延，但可能导致精度下降
使用AIPP：AIPP（Artificial Intelligence Pre-Processing）人工智能预处理，用于在 AI Core 上完成数据预处理，包括改变图像尺寸、色域转换（转换图像格式）、减均值 / 乘系数（改变图像像素），数据预处理之后再进行真正的模型推理
AICPU转AICORE
分析是否可以使用融合算子
消除算子
简化计算逻辑
自定义算子