斜阳1

赞

0

|

搜索文章

转载【AI系统】Kernel 层架构

推理引擎的 Kernel 层通常是推理引擎中用于执行底层数学运算的组件。在神经网络模型推理过程中，需要对大量数据进行高效的数学运算，如矩阵乘法、卷积、池化等。Kernel 层就是实现这些运算的核心部分

1年前
122
点赞
评论

转载【AI系统】计算图的优化策略

推理引擎的 Kernel 层通常是推理引擎中用于执行底层数学运算的组件。在神经网络模型推理过程中，需要对大量数据进行高效的数学运算，如矩阵乘法、卷积、池化等。Kernel 层就是实现这些运算的核心部分

1年前
133
点赞
评论

转载【AI系统】离线图优化技术

上一篇文章主要回顾了计算图优化的各个组成部分，包括基础优化、扩展优化以及布局和内存优化。这些优化方式在预优化阶段、优化阶段和后优化阶段都有所应用，以提高计算效率。同时，还介绍了 AI 框架和推理引擎在

1年前
119
点赞
评论

转载【AI系统】计算图优化架构

本文将会介绍推理引擎转换中的图优化模块，该模块负责实现计算图中的各种优化操作，包括算子融合、布局转换、算子替换和内存优化等，以提高模型的推理效果。计算图是一种表示和执行数学运算的数据结构，在机器学习和

1年前
148
点赞
评论

转载【AI系统】自定义计算图 IR

模型转换涉及对模型的结构和参数进行重新表示。在进行模型转换时，通常需要理解模型的计算图结构，并根据目标格式的要求对其进行调整和转换，可能包括添加、删除或修改节点、边等操作，以确保转换后的计算图能够正确

1年前
118
点赞
评论

转载【AI系统】推理文件格式

在训练好一个模型后，需要将其保存下来，以便在需要时重新加载并进行推理或进一步的训练。为了实现这一目标，需要一种有效的方式来将模型的参数、结构等保存起来。本文主要介绍在推理引擎中，针对神经网络模型的序

1年前
93
点赞
评论

转载【AI系统】知识蒸馏原理

本文将介绍知识蒸馏（Knowledge Distillation, KD）的原理，这是一种通过从大型的教师模型向小型的学生模型转移知识来实现模型压缩和优化的技术。知识蒸馏的核心思想是利用教师模型在大量

1年前
165
点赞
评论

转载：【AI系统】感知量化训练 QAT

本文将会介绍感知量化训练（QAT）流程，这是一种在训练期间模拟量化操作的方法，用于减少将神经网络模型从 FP32 精度量化到 INT8 时的精度损失。QAT 通过在模型中插入伪量化节点（FakeQua

1年前
236
点赞
评论

转载【AI系统】低比特量化原理

计算机里面数值有很多种表示方式，如浮点表示的 FP32、FP16，整数表示的 INT32、INT16、INT8，量化一般是将 FP32、FP16 降低为 INT8 甚至 INT4 等低比特表示。模型

1年前
193
点赞
评论

转载【AI系统】模型压缩基本介绍

随着神经网络模型的复杂性和规模不断增加，模型对存储空间和计算资源的需求越来越多，使得部署和运行成本显著上升。模型压缩的目标是通过减少模型的存储空间、减少计算量或提高模型的计算效率，从而在保持模型性能的

1年前
72
点赞
评论

个人成就

文章被阅读 18,124

加入于

2024-12-09